Acordar formatos y vocabulario con otros grupos de Open Data en España

fesja commented 8 years ago

De mis conversaciones con responsables públicos y otras organizaciones, he sacado bastante interés en que se unan esfuerzos de cara a acordar formatos y vocabularios. Asi que antes de seguir debatiendo sobre formatos, que no es el objetivo principal de Code for Spain, creo que tiene sentido tener nuestros primeros 10 datasets en un formato no perfecto.

Organizamos un grupo de trabajo junto a otras organizaciones, responsables públicos y empresas; vemos lo que hemos hecho cada uno, y nos ponemos de acuerdo. Y con ese acuerdo, ya terminamos los datasets con el formato acordado.

Si no, veo que vamos a estar debatiendo sobre si un campo si o no, uno o varios repos, cuando luego lo volveremos a debatir con otros. Como ya está sucediendo... ¿cómo lo veis?

¿Quién se apuntaría a ese grupo de trabajo? Podemos ver quiénes son los candidatos más idóneos en base a la experiencia y motivación.

fesja commented 8 years ago

Estos son los datasets del Ayuntamiento de Alcobendas que tienen normalizados según la Norma UNE 178301 Ciudades Inteligentes. Datos abiertos (Open data):

Presupuestos: http://datos.alcobendas.org/presupuestos
Equipamientos culturales: http://datos.alcobendas.org/dataset/equipamiento-culturales-en-alcobendas
Agenda cultural: http://datos.alcobendas.org/dataset/agenda
Directorio de Empresas: http://datos.alcobendas.org/dataset/directorio-de-empresas
Directorio de Comercios: http://datos.alcobendas.org/dataset/directorio-de-comercios
Paradas autobuses regulares: http://datos.alcobendas.org/dataset/paradas-de-autobus-en-alcobendas
Aparcamientos: http://datos.alcobendas.org/dataset/aparcamientos-en-alcobendas

cc @inigoflores @jalbertoroman @jpaulet @calonso

inigoflores commented 8 years ago

No consigo encontrarle sentido a esta norma. He accedido a los catálogos de algunos ayuntamientos que han obtenido la certificación UNE 178301, y me encuentro que los datasets no usan una nomenclatura común, no presentan los datos en un formato unificado, y en algunos casos hasta omiten la foreign key.

Ejemplos:

http://www.bilbao.net/opendata/es/catalogo/dato-portales

TTRE_COD_BARRIO	TPOR_COD_CALLE	TCAL_DES_CALLE_A	TCAL_COD_TIPVIA	TTVI_DES_TIPVIA_A	TPOR_IDE_CLPORT	TPOR_DIR_PORTAL	TPOR_DIR_BIS	TCAL_COD_MUNICI	TMUN_DES_MUNICI_A	TPOR_IDE_CLPORT	TTRE_DIR_DISPOS	TDIS_DES_DISEST_A	TBAR_DES_BARRIO_A	TTRE_COD_DISEST	TTRE_NUM_SECEST	TCOG_IDE_COORDX_UT	TCOG_IDE_COORDY_UT	TTRE_COD_BARRIO
101	9573	ZARANDOA	AV	AVENIDA	64802000020903	23		20	BILBAO	64802000020903	48015	DEUSTU	SAN IGNACIO	1	7	503006.59	4791977.76	101
101	2990	AGUIRRE LEHENDAKARI	AV	AVENIDA	64802000035137	144		20	BILBAO	64802000035137	48015	DEUSTU	SAN IGNACIO	1	12	503325.94	4791829.06	101
101	2990	AGUIRRE LEHENDAKARI	AV	AVENIDA	64802000035145	145		20	BILBAO	64802000035145	48015	DEUSTU	SAN IGNACIO	1	11	503287.76	4791816.01	101
101	2990	AGUIRRE LEHENDAKARI	AV	AVENIDA	64802000035153	146		20	BILBAO	64802000035153	48015	DEUSTU	SAN IGNACIO	1	12	503317.97	4791848.50	101
101	2990	AGUIRRE LEHENDAKARI	AV	AVENIDA	64802000035161	146	A	20	BILBAO	64802000035161	48015	DEUSTU	SAN IGNACIO	1	12	503311.74	4791838.78	101

http://www.bilbao.net/opendata/es/catalogo/dato-habitantes-distrito-barrio-estudios

DISTRITO	NOMBRE_DISTRITO	BARRIO	NOMBRE_BARRIO	CODIGO_TITULO	NIVEL_ESTUDIOS	TOTALES
1	DEUSTU	101	SAN IGNACIO	0	NO APLICABLE (MENOR 10 A�OS)	1829
1	DEUSTU	101	SAN IGNACIO	11	NO SABE LEER NI ESCRIBIR	41
1	DEUSTU	101	SAN IGNACIO	20	INFERIOR A GRAD. ESCOLAR	4

http://www.bilbao.net/opendata/es/catalogo/dato-barrios

TBAR_COD_BARRIO TBAR_DES_BARRIO

101 SAN IGNACIO

102 ELORRIETA

103 IBARREKOLANDA

104 SAN PEDRO DE DEUSTU

105 LA RIBERA

106 ARANGOITI
http://www.bilbao.net/opendata/es/catalogo/dato-habitantes-barrio-sexo

NOMBRE_BARRIO SEXO TOTALES

ABANDO Hombre 10924

ABANDO Mujer 13145

ALTAMIRA Hombre 817

ALTAMIRA Mujer 912

AMETZOLA Hombre 5526

AMETZOLA Mujer 6859

TBAR_COD_BARRIO	TBAR_DES_BARRIO
101	SAN IGNACIO
102	ELORRIETA
103	IBARREKOLANDA
104	SAN PEDRO DE DEUSTU
105	LA RIBERA
106	ARANGOITI

NOMBRE_BARRIO	SEXO	TOTALES
ABANDO	Hombre	10924
ABANDO	Mujer	13145
ALTAMIRA	Hombre	817
ALTAMIRA	Mujer	912
AMETZOLA	Hombre	5526
AMETZOLA	Mujer	6859

Tres nombres distintos para la columna de código de barrio (TTRE_COD_BARRIO, BARRIO, TBAR_COD_BARRIO), y en la última tabla no está ni siquiera incluido.

¿Esto lo permite la norma? Lo de las tres primeras tablas pasa (incluido que se haya duplicado la columna TTRE_COD_BARRIO en la primera), pero lo de la última tabla me parece inaceptable.

Otro ejemplo: http://datos.alcobendas.org/dataset/aparcamientos-en-alcobendas/resource/a74aa5d5-7b78-42b7-a5cf-f8eb2fc1ffa2

No entiendo por qué se utilizan nombres de columna que incluyen espacios y acentos, que no pueden ser tratados por una máquina. Así mismo, no sé qué sentido tiene incluir campos para nombre de país, provincia y municipio, y sin embargo se omite el código INE del municipio.

fesja commented 8 years ago

@inigoflores he estado leyendo la norma, y no me ha aclarado mucho la verdad. Asi que esa puede ser el culpable de las diferencias de ejecución, no llega a definir nada concreto. Estoy de acuerdo contigo en que deberían llevar el código INE del municipio por ejemplo.

A ver si mañana o pasado hablo más con un par de personas y os comparto cómo podemos ayudar.

codeforspain / datos

Acordar formatos y vocabulario con otros grupos de Open Data en España #26