llrs / BOE_historico

Analysis of the historic data of BOE
https://llrs.github.io/BOE_historico
4 stars 0 forks source link

¿Estáis en disposición de servir los datos del BOE vía API? #11

Closed pr3ssh closed 3 years ago

llrs commented 3 years ago

Hola @pr3ssh,

Este proyecto lo he hecho yo a nivel personal. Tengo los datos del BOE en una base de datos que podría poner a disposición del público a través de una API. Me gustaría y tengo la intención de hacerlo en algún momento. Si hay interés le puedo dar más prioridad. ¿Qué tienes en mente?

pr3ssh commented 3 years ago

Gracias por la pronta respuesta @llrs En @politicalwatch tenemos algunas APIs preparadas y damos seguimiento a algunas instancias democráticas (como el Congreso de los Diputados). Estás dando seguimiento a todo el BOE? Podriamos hacer algo en común.

llrs commented 3 years ago

Sí, descubrí vuestra página después de hacer esta cuando empecé a plantearme hacer lo mismo con otras instancias democráticas. Estoy en proceso de hacer lo mismo con el senado y el congreso, aunque sin scrapear la web, solo con los datos públicos (https://github.com/ropenspain/senadoRES y https://github.com/llrs/congRESo).

Se podría decir que hago un seguimiento de todo el BOE, sí. Sólo me descargué el BOE desde enero de 2009 que es cuando los contenidos online tienen igual validez que los impresos. El seguimiento diario del BOE y BORME es automático, un bot actualiza diariamente la página del último BOE y BORME y lo twittea: https://twitter.com/boletines_es pero no actualizo los análisis diariamente. Si queréis cubrir el BOE desde @politicalwatch podéis usar el programa que escribí para estructurar el BOE: https://github.com/ropenspain/BOE.

Por supuesto que podríamos hacer algo en común, quería conseguir los datos de justicia del CENDOJ pero me denegaron mi solicitud (más bien no me contestaron cuando les dije que su solicitud no era legal y tengo que interponer un Recurso Contencioso-Administrativo según el consejo de transparencia y buen gobierno). Si os interesa podemos trabajar en ello, para conseguir más transparencia en la justicia.

pr3ssh commented 3 years ago

Empezando por el final, no me metería en el CENDOJ porque es muy costoso en tiempo, dinero y esfuerzo. Es una lucha a largo plazo para la que ahora no tenemos fuerzas. Respecto a los análisis que quieres hacer sobre el Congreso, te animo a que consumas nuestra api y asi te ahorras el escrapeo. Respecto a lo del BOE, me parece buena idea lo de usar tu/vuestro código. Una pregunta: no lo guardas en ninguna base de datos local ni para el bot? Como paso intermedio a la API, podrías exponer un fichero con el backup de datos.

llrs commented 3 years ago

Sí, me sucedió lo mismo con el CENDOJ, por eso pensaba que a lo mejor vosotros estaríais interesados. Por curiosidad ¿en cuanto estimas el coste de reclamar al CENDOJ todos los datos?

El trabajo ya está hecho, sólo que no me he puesto a descargarlo y analizarlo, pero tendré en cuenta vuestra API especialmente para ver si obtenemos la misma información.

El bot sólo actualiza la página con la información del día y guarda lo que no ha twitteado en la acción de github hasta el día siguiente o hasta que se agote. Al día siguiente vuelta a empezar. Hasta ahora todo ha sido con herramientas gratuitas y sin coste (más allá de mi tiempo). Se podría extraer del historial del repositorio, pero no creo que sea sencillo. Lo que sí que tengo guardado en local son los datos en un csv (hasta finales 2019) y en una base de datos (hasta el mes pasado), pero hay algún par de errores y cosas que quiero mejorar (tipo de formato no adecuados, faltan índices...), por eso no lo he hecho público (y porque hasta ahora no ha recibido demasiado interés). Compré un dominio para exponer estos datos y tener una API, pero todavía no me he puesto a crear la web, las APIs...

pr3ssh commented 3 years ago

"¿en cuanto estimas el coste de reclamar al CENDOJ todos los datos?" < Ni idea

Avísame por favor de los avances que puedas hacer en términos de infraestrcutura del BOE.

llrs commented 2 years ago

Hola @pr3ssh. Pediste que te mantuviera informado de actualizaciones en la infraestructura. He ido puliendo un poco más el programa del BOE y probando guardar los datos en una base de datos. Ahora tengo el BOE en una base de datos (SQLite) y planteándome cómo servirla al público.

Para tener unas estimaciones sobre la eficiencia necesaria, dimensiones y costes que podría tener a la hora de ofrecer la API, cuántas consultas tenéis en las APIs de Political Watch?

pr3ssh commented 2 years ago

Hola @llrs ;) No tenemos analíticas de peticiones a nuestras APIs pero para nuestro servicio principal (QHLD) son bastantes ya que el front es la que utiliza en toda su operativa. Cualquier cosa si quieres escríbeme por privado a pablo.martin@politicalwatch.es Abrazo!