codeforspain / datos

141 stars 5 forks source link

¿Cuáles son los 10 tipos de datos más necesarios? #6

Open fesja opened 8 years ago

fesja commented 8 years ago

Dentro del objetivo de buscar y formatear datos que otras personas reutilicen, podemos ponernos como objetivo 10 tipos de datos. Y deberían ser claro, lo más reusados. Si conseguimos en un mes tener esos 10 en varios formatos, habremos conseguido una pequeña victoria y ya podremos pensar en objetivos más grandes o complicados.

Ante todo, ¿qué os parece centrarnos en 10 para empezar? Y si sí, ¿cuáles elegimos? A mi se me ocurren:

¿cuál añadiríais más? ¿cambiaríais alguna?

sergioaguado commented 8 years ago

El de playas ya esta en abierto en la página de datos abiertos del gob.

alorma commented 8 years ago

Sueldos, transparencia política

jpaulet commented 8 years ago

Conjuntos prioritarios El Open Data Charter define como objetivo la publicación de cuatro conjuntos de datos prioritarios de manera inmediata:

Conjuntos de alto valor Por otro lado se identifican también catorce áreas temáticas con gran potencial desde el punto de vista de una mejor gobernanza y el fomento de la innovación donde se deberían centrar los esfuerzos de publicación de datos en el futuro próximo:

Esto serían 18 campos diferentes, muy amplios.

Por lo tanto, para especificar un poco más y dejarlo en 8:

1 Estadistica Nacional:

Estadísticas nacionales clave como indicadores demográficos y económicos ( PIB , el desempleo, población , etc.). Para satisfacer esta categoría , se deben cumplir los siguientes requisitos mínimos

- PIB para todo el país actualizado al menos cada trimestre
- Las estadísticas de desempleo actualizan al menos cada mes
- Población actualiza al menos una vez al año

2 Presupuesto del Gobierno

Presupuesto nacional del gobierno, para satisfacer esta categoría, se deben cumplir los siguientes requisitos mínimos:

Presupuesto previsto dividido por departamento gubernamental y subdepartamento
Actualizado una vez al año.
El presupuesto debe incluir descripciones relativas a las diferentes secciones del presupuesto.

3 Legislación

Esta categoría de datos requiere que todas las leyes y los estatutos nacionales disponibles para estar disponible en línea.

4 Licitaciones

Todas las licitaciones y adjudicaciones del gobierno nacional / autonomico agregados por la oficina. Supervisión de las ofertas pueden ayudar a los nuevos grupos para participar en las licitaciones y aumentar el cumplimiento del gobierno. Los datos presentados en esta categoría deben ser agregados por la oficina, actualizado al menos cada mes y satisfacer los siguientes requisitos mínimos:

Concursos:
    nombre de las ofertas
    Descripción de licitación

Premios:
    Premio del título
    Descripción del premio
    valor de la concesión
    nombre del proveedor

5 Resultados de las elecciones

Esta categoría de datos requiere resultados por circunscripción / comunidades para todas las contiendas electorales nacionales. Para satisfacer esta categoría, se deben cumplir los siguientes requisitos mínimos:

    Como resultado de todas las principales contiendas electorales
    Número de votos registrados
    Número de votos no válidos
    Número de votos nulos

6 Mapa Nacional

Esta categoría de datos requiere un mapa nacional de alto nivel. Para satisfacer esta categoría, se deben cumplir los siguientes requisitos mínimos:

    Escala de 1: 250.000 (1 cm = 2.5km).
    Las marcas de las carreteras nacionales
    Las fronteras nacionales
    Marcado de los arroyos, ríos, lagos, montañas.
    Actualizado al menos una vez al año.

7 Registro de Empresa

Lista de empresas registradas (de responsabilidad limitada). Las presentaciones en esta categoría de datos no necesitan incluir datos financieros detallados, como balance, etc. Para satisfacer esta categoría, se deben cumplir los siguientes requisitos mínimos:

    Nombre de la compañía
    Identificador único de la empresa
    Dirección de la empresa
    Actualizado al menos una vez al mes

8 Ubicación conjuntos de datos

Una base de datos de códigos postales / códigos postales y las localizaciones espaciales correspondientes en términos de una latitud y una longitud (o coordenadas similares en un sistema de coordenadas nacional publicada abiertamente). Si un sistema de código postal / código postal no existe en el país, por favor enviar un conjunto de datos de fronteras administrativas. Los datos presentados en esta categoría deberán cumplir las siguientes condiciones mínimas

    Códigos ZIP
    Dirección
    Coordenadas (latitud y longitud)
    nivel nacional

    actualizado una vez al año

    Límites administrativos
    Polígonos
    nombre del polígono (ciudad, barrio)
    actualizado una vez al año

Información basada en: http://index.okfn.org/dataset/ a partir de datos disponibles en otros países.

A partir de los consejos del OpenSunlight Fundation, en su Open Data Policy Guidelines (http://sunlightfoundation.com/opendataguidelines/examples/#lists-of-holdings), deberíamos disponer de una herramienta para un libre voto de los datos más solicitados:

Especificar los métodos para determinar la prioridad de publicación de los datos

Puede que una simple herramienta web, abierta y colaborativa con una lista de:

'Nombre del Dato a liberar' - Votos

Podría ayudar para el futuro.

sergioaguado commented 8 years ago

El censo algo prioritario diría yo porque es bastante dificil acceder, no hay buena actualización y si no se sabe la gente que habita en un sitio, los demás datos (como votos) carecen de contexto de referencia.

Un saludo: Sergio Aguado Machuca

El 7 abr 2016, a las 14:09, jp_aulet notifications@github.com<mailto:notifications@github.com> escribió:

Conjuntos prioritarios El Open Data Charter define como objetivo la publicación de cuatro conjuntos de datos prioritarios de manera inmediata:

Conjuntos de alto valor Por otro lado se identifican también catorce áreas temáticas con gran potencial desde el punto de vista de una mejor gobernanza y el fomento de la innovación donde se deberían centrar los esfuerzos de publicación de datos en el futuro próximo:

Esto serían 18 campos diferentes, muy amplios.

Por lo tanto, para especificar un poco más y dejarlo en 8:

1 Estadistica Nacional:

Estadísticas nacionales clave como indicadores demográficos y económicos ( PIB , el desempleo, población , etc.). Para satisfacer esta categoría , se deben cumplir los siguientes requisitos mínimos

2 Presupuesto del Gobierno

Presupuesto nacional del gobierno, para satisfacer esta categoría, se deben cumplir los siguientes requisitos mínimos:

Presupuesto previsto dividido por departamento gubernamental y subdepartamento Actualizado una vez al año. El presupuesto debe incluir descripciones relativas a las diferentes secciones del presupuesto.

3 Legislación

Esta categoría de datos requiere que todas las leyes y los estatutos nacionales disponibles para estar disponible en línea.

4 Licitaciones

Todas las licitaciones y adjudicaciones del gobierno nacional / autonomico agregados por la oficina. Supervisión de las ofertas pueden ayudar a los nuevos grupos para participar en las licitaciones y aumentar el cumplimiento del gobierno. Los datos presentados en esta categoría deben ser agregados por la oficina, actualizado al menos cada mes y satisfacer los siguientes requisitos mínimos:

Concursos: nombre de las ofertas Descripción de licitación

Premios: Premio del título Descripción del premio valor de la concesión nombre del proveedor

5 Resultados de las elecciones

Esta categoría de datos requiere resultados por circunscripción / comunidades para todas las contiendas electorales nacionales. Para satisfacer esta categoría, se deben cumplir los siguientes requisitos mínimos:

Como resultado de todas las principales contiendas electorales
Número de votos registrados
Número de votos no válidos
Número de votos nulos

6 Mapa Nacional

Esta categoría de datos requiere un mapa nacional de alto nivel. Para satisfacer esta categoría, se deben cumplir los siguientes requisitos mínimos:

Escala de 1: 250.000 (1 cm = 2.5km).
Las marcas de las carreteras nacionales
Las fronteras nacionales
Marcado de los arroyos, ríos, lagos, montañas.
Actualizado al menos una vez al año.

7 Registro de Empresa

Lista de empresas registradas (de responsabilidad limitada). Las presentaciones en esta categoría de datos no necesitan incluir datos financieros detallados, como balance, etc. Para satisfacer esta categoría, se deben cumplir los siguientes requisitos mínimos:

Nombre de la compañía
Identificador único de la empresa
Dirección de la empresa
Actualizado al menos una vez al mes

8 Ubicación conjuntos de datos

Una base de datos de códigos postales / códigos postales y las localizaciones espaciales correspondientes en términos de una latitud y una longitud (o coordenadas similares en un sistema de coordenadas nacional publicada abiertamente). Si un sistema de código postal / código postal no existe en el país, por favor enviar un conjunto de datos de fronteras administrativas. Los datos presentados en esta categoría deberán cumplir las siguientes condiciones mínimas

Códigos ZIP
Dirección
Coordenadas (latitud y longitud)
nivel nacional

actualizado una vez al año

Límites administrativos
Polígonos
nombre del polígono (ciudad, barrio)
actualizado una vez al año

Información basada en: http://index.okfn.org/dataset/ a partir de datos disponibles en otros países.

A partir de los consejos del OpenSunlight Fundation, en su Open Data Policy Guidelines (http://sunlightfoundation.com/opendataguidelines/examples/#lists-of-holdings), deberíamos disponer de una herramienta para un libre voto de los datos más solicitados:

Especificar los métodos para determinar la prioridad de publicación de los datos

Puede que una simple herramienta web, abierta y colaborativa con una lista de:

'Nombre del Dato a liberar' - Votos

Podría ayudar para el futuro.

You are receiving this because you commented. Reply to this email directly or view it on GitHubhttps://github.com/codeforspain/datos/issues/6#issuecomment-206841233

sdemingo commented 8 years ago

Aunque puede considerarse dentro de "Presupuestos" yo añadiría sueldos de trabajadores públicos de cualquier nivel adscritos tanto a gobierno central como a consejerías autonómicas.

jpaulet commented 8 years ago

@sergioaguado Si el censo será complicado, ya que la población es facil de conseguir (en todos los niveles de granularidad, desde Estatal a Municipal), pero el censo no.

Una de las opciones (no muy buena) seria dirigirse a: http://www.ine.es/jaxi/tabla.do?path=/t20/e244/avance/p02/l0/&file=1mun00.px&type=pcaxis

Donde existe el censo de población por edad y municipio, y luego restar los números de 0 a 17 años, pero los datos están sólo disponibles hasta el 2011 y tampoco sé si seria válido este método. Però otras fuentes de datos no estan disponibles: http://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259944131822&p=1259944131822&pagename=CensoElectoral%2FINELayout (todos los links fallan).

A nivel de http://datos.gob.es tampoco veo nada a nivel Estatal (ya que los datos existentes son un link a la pagina del INE) y existe esta pagina http://www.ine.es/prodyser/micro_padron.htm pero tampoco parecen muy utiles los datos (formato .TXT).

sergioaguado commented 8 years ago

Buenas

Creo que el INE vende unos CD con esa información de población a nivel de unidad censal.

Por otro lado, los puntos de interés están bastante bien cubiertos con la api de Google yo creo.


De: jp_aulet notifications@github.com Enviado: jueves, 7 de abril de 2016 15:01 Para: codeforspain/datos Cc: Sergio Aguado Asunto: Re: [codeforspain/datos] ¿Cuáles son los 10 tipos de datos más necesarios? (#6)

@sergioaguadohttps://github.com/sergioaguado Si el censo será complicado, ya que la población es facil de conseguir (en todos los niveles de granularidad, desde Estatal a Municipal), pero el censo no.

Una de las opciones (no muy buena) seria dirigirse a: http://www.ine.es/jaxi/tabla.do?path=/t20/e244/avance/p02/l0/&file=1mun00.px&type=pcaxis

Donde existe el censo de población por edad y municipio, y luego restar los números de 0 a 17 años, pero los datos están sólo disponibles hasta el 2011 y tampoco sé si seria válido este método. Però otras fuentes de datos no estan disponibles: http://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259944131822&p=1259944131822&pagename=CensoElectoral%2FINELayout (todos los links fallan).

A nivel de http://datos.gob.es tampoco veo nada a nivel Estatal (ya que los datos existentes son un link a la pagina del INE) y existe esta pagina http://www.ine.es/prodyser/micro_padron.htm pero tampoco parecen muy utiles los datos (formato .TXT).

You are receiving this because you were mentioned. Reply to this email directly or view it on GitHubhttps://github.com/codeforspain/datos/issues/6#issuecomment-206942588

fesja commented 8 years ago

@sergioaguado @jpaulet aquí está el censo 2011 en formato usable https://team.cartodb.com/u/andrew/tables/spain_census2011/public

@jpaulet ójala tuviéramos acceso a todos esos datos! Pero creo que para una primera fase es demasiado aunque sin duda alguna debería ser objetivo a largo plazo. Asi que me parece muy buena idea tenerlos como referencia.

Si que creo que deberíamos enfocarnos ahora en tipos de datos que más se reutilicen. De esos yo diría que son:

Estadística Nacional:

Presupuesto del Gobierno

Resultados de las elecciones

Mapa Nacional

Ubicación conjuntos de datos

¿Qué opináis otros?

fesja commented 8 years ago

Buenas,

Tenemos que decidir qué fuentes de datos priorizamos y así empezamos a trabajar. Siguiendo la guía que propuso @jpaulet y mezclando con lo que habéis comentado otros, propongo los siguientes 10 datasets. Si creéis que hay otros más prioritarios, decidlo y lo vemos entre todos! Si los veis bien, dad el ok.

Los ordeno por posible prioridad.

1. Límites administrativos

2. Códigos ZIP

3. Regiones censales

4. Población

5. PIB

6. Estadísticas de desempleo

7. Resultados de las elecciones

8. Presupuesto del Gobierno

9. Listado de calles – Catrasto?

10. Aeropuertos

martgnz commented 8 years ago

Respecto a la mayoría de datos de @fesja, son encontrables a través de INE. No sé si tenéis pensado crear una manera de automatizar el procesado. Creo que con los códigos postales hay lío porque los vende Correos.

1. Límites Administrativos

Líneas límite incluye bordes y polígonos de municipios, provincias y comunidades autonómas y se actualiza regularmente. Es lo que habitualmente uso para hacer mapas. Necesita un procesado antes, ya que Canarias y la Península van por separado (lo hago con QGIS). Tengo un repo con municipios pero es solo un TopoJSON que voy usando.

Lo mejor sería crear algo estilo US-Atlas.

3. Regiones censales

El INE tiene abiertos los SHP del Censo desde 2011 junto a indicadores interesantes. Repito, lo mejor sería crear un repo con geodatos de España, que usara makefiles para procesarlos.

7. Resultados elecciones

Este es bastante trabajo. La idea sería bajar los datos en bruto de InfoElectoral y procesarlos, pero están desactualizados, creo. En EEUU existe un proyecto llamado OpenElections que se dedica precisamente a esto.

tinproject commented 8 years ago

Hola! Esto probablemente debería ir en #7 pero aquí está más en contexto.

En mi opinión no habría que utilizar Shapefiles, ya que aunque es un estándar de facto, es un formato propietario. En su lugar lo propio sería usar GeoJSON (http://geojson.org) que se renderiza directamente por GitHub y además está en proceso de estandarización por el W3C.

martgnz commented 8 years ago

No he dicho que tengamos que usar shapefiles. Pero lamentablemente las administraciones sirven este tipo de ficheros.

La idea es crear un makefile que se baje los shapefiles, los convierta con ogr2ogr o similar y tengas un GeoJSON o TopoJSON como resultado. Si no hacemos un proceso reproducible con los datos (como esto) será imposible controlar para el usuario la simplificación o las propiedades del JSON.

fesja commented 8 years ago

Os muevo la conversación a #7 para que no mezclemos :)

@martgnz Estoy totalmente de acuerdo con lo de automatizar los procesos. Hay otra conversación abierta en #9 sobre esto precisamente. Una de las grandes preguntas, que hay que ir dato por dato, y a nivel general empezamos a hablar en #8, es cuando enlazamos a la fuente original y cuando reformateamos.

Cuando acordemos las fuentes prioritarias, creamos una issue por cada uno y ahi debatimos los problemas, formatos, soluciones, etc.

¿os parecen bien entonces esas 10 fuentes? ¿no echáis de menos otra o quitaríais alguna?

dcabo commented 8 years ago

Los Presupuestos Generales del Estado (el punto 8) están disponibles en formato abierto (CSV, separado con puntos y comas) aquí. También está ahí el código que uso para escrapear la web oficial.

inigoflores commented 8 years ago

Volviendo al asunto central de este issue :), yo voto a favor de aprobar la lista propuesta, pues parece bastante exhaustiva, y puede servir para establecer un núcleo sólido sobre la que ir construyendo el catálogo.

sdemingo commented 8 years ago

Pienso igual, la propuesta final de @fesja me parece un buen punto de partida. Un gran catalogo de datos iniciales sobre los que ir completando con otros que se propongan.

valenmope commented 8 years ago

Me uno a la idea de empezar por algo menos ambicioso pero más asequible para esta primera fase. Creo que es bueno para todos poner objetivos rápidos para empezar a generar contenido e ir calentando motores.

fpedrera commented 8 years ago

El Open Data Census de OKF te puede servir de referencia para conjuntos de datos locales y nacionales: http://census.okfn.org/

jalbertoroman commented 8 years ago

Con respecto a límites administrativos, lo que hay publicado a escala 1:25.000: Comunidades Autónomas, Provincias, Municipios, Comarcas Agrarias, Comarcas Ganaderas. CartoCiudad proporciona los códigos postales que provienen de correos. Y el INE, los límites censales en shp y un csv con los datos que muestra CartoDB. De barrios y ciudades habría que mirar en Catastro, CartoCiudad o Corine Land Cover para ver como se puede sacar. Con respecto a Municipios y a comarcas hay diferencias entre la información del gobierno central y las autonómicas. Yo me decantaría por tomar la del gobierno central. De otra manera es mucho trabajo y politiqueos...

Me gustaría abrir otra discusión antes de cerrar que 10 tipos de datos queremos. ¿para que los queremos? Facilitar a otros desarrolladores el trabajo con los datos Españoles. O como otras iniciativas, promover gobiernos más transparentes y abiertos. O bien cualquier otra motivación. Creo que Code For Spain es un concepto amplio y vendría bien una reflexión. Igual podemos hacer algo más que formatear datos...

tinproject commented 8 years ago

Los líneas límite municipales son datos de descarga directa en el centro de descargas del CNIG http://centrodedescargas.cnig.es/CentroDescargas/equipamiento.do?method=descargarEquipamiento&codEquip=3

fesja commented 8 years ago

Genial, parece entonces que tenemos primeros datasets. Acabo de crear una página en la wiki con los 10 y una página para cada uno. La idea es que en cada página se vaya poniendo lo definido: cual es la fuente, en qué estado está, si hace falta formateo, quien lo está haciendo, definición de la estructura de CSV, JSON y GeoJSON, documentación, etc.

Elegid uno cada uno y nos lo repartimos. Cread también una issue para ir comentando las dudas que tengamos, asi nos coordinamos y hacemos todos igual. Yo me he asignado el de códigos postales :)

@jalbertoroman Creo que la intención era clara en este primer proyecto: Facilitar a otros desarrolladores el trabajo con los datos Españoles. Pero efectivamente los siguientes deben ser más sobre cómo utilizar esos datos para ser más útiles al público en general (web, apps), redactar guías y hablar con los responsables de los Open Data de España, etc. Estoy hablando con varias asociaciones que tocan temas similares para no solaparnos o mejor aún, aunar esfuerzos en la misma dirección!

Si tienes alguna idea en concreto, abre una issue y la hablamos :)

martgnz commented 8 years ago

@fesja No sería útil crear un repo en la organización con cada dataset?

O eso cuando un dataset ya esté 'adoptado'?

fesja commented 8 years ago

@martgnz ¿es mejor un repo para cada dataset o este repo donde subamos todos? Depende del volumen supongo. Es cierto que si somos muchos en un repo se complican los permisos y los pull-requests. ¿Como lo véis?

inigoflores commented 8 years ago

En la clasificación final del Wiki, "Catastro" es una fuente que incluye multitud de datasets diferentes, no una categoría, en mi opinión. Para evitar solapamiento y confusion, quizás habría que cambiar el nombre a "Listado de Calles" o "Callejero", donde tanto el Catastro como el INE (y no sé si otros organismos) mantienen su propia lista, que difieren y mucho. Para tener una idea de lo que hablo, solo hay que echarle un vistazo rápido al documento

En relación a si utilizar una sola repo vs múltiples repos, es una decisión complicada.

Me abstengo de opinar, y lo dejo en manos de gente con más experiencia.

martgnz commented 8 years ago

@fesja yo crearía una estructura similar a la de BuzzfeedNews.

Un repo para todo que sirva como índice (y se lleve las estrellas :joy:) y luego un repo para cada dataset. Así tienes la ventaja de un índice y luego múltiples repos que hacen más fácil clonar y gestionar prs e issues.

Si se deja todo en un repo corre el peligro que se convierta en algo como esto, que me parece insostenible.

jpaulet commented 8 years ago

Por el tema de un repositorio o varios, yo creo que la mejor opción es tener una Organización con varios repositorios por cada grupo/dataset diferenciado (igual que @martgnz ). Se pueden crear repositorios para agrupar un tipo de dato y finalmente uno general que sea un índice (e incluso puede contener el código/datos de todos los otros).

Ejemplo: https://github.com/datasets

De esta forma se crean "grupos de trabajo" separados con un readme cada uno, y que basandome en el "OpenData Goldbook" (que aconsejo a todos echar una ojeada: http://www.europeandataportal.eu/en/content/providing-data/open-data-goldbook), recomiendan crear una forma jerárquica donde se assignan grupos (uno por cada dataset) y un responsable superior que se cuida de estandarizar y homogeneizar los datos entre diferentes datasets, así tener una buena calidad en todos (por ejemplo: omitir blancos, campos unificados, etc.) parece la mejor opción.

data_team

Por ejemplo, el responsable de cada dataset, debe validar que el dataset cumpla unos mínimos:

Datos completos Está ajustado completa sus datos? preocupaciones de integridad varios aspectos. Cada conjunto de datos debe (entre otros):

Datos limpios

Y organizar el repositorio y la comunicación con otros grupos y los miembros de éste dataset con canales de comunicación específica.

El primero que se asigne uno de los 10 datasets, pasa a ser el 'jefe' que coordina los siguientes voluntarios y los guía con la faena que se ha hecho y la que falta por hacer (e incluso hace 'spam' para conseguir más voluntarios).

¿Que os parece? Creo que será una forma más organizada...

fesja commented 8 years ago

ya he comentado en #17, todos de acuerdo en crear un repo por dataset; os voy dando acceso!

fesja commented 8 years ago

Hola a todos! ¿Podéis actualizar el estado del avance de vuestros datasets en http://comunidad.codeforspain.org/t/resumen-del-estado-del-proyecto-de-10-datasets/57? No pasa nada si aún falta, lo importante es ver qué dudas hay, qué falta para poder darle un empujón.

sergioaguado commented 8 years ago

Hola, yo no tenía ningún dataset asignado pero ahora que has mandado este recordatorio me he dado cuenta de que cuando trabajaba en Rumbo.es utilizábamos bastante este repositorio de aeropuertos: https://github.com/jpatokal/openflights/blob/master/data/airports.dat Es de 2014 pero era de lo más completo que había a nivel mundial.