CodeandoMexico / los-scrapers

Recopilación de web scrapers para mejorar al gobierno (A collection of web-scrapers to extract government data)
12 stars 13 forks source link

Agregando proyecto de diputador #11

Open sigues opened 11 years ago

sigues commented 11 years ago

Estos scrappers los hice a finales del 2011-principios del 2012, sirven para extraer y clasificar la información de la página oficial de los diputables (http://www.diputados.gob.mx/inicio.htm), incluyo el diseño de la base de datos que está en MySQL Workbench, pero al igual incluyo el archivo .sql con los datos de todos los diputados de la legislatura 2009-2012. La verdad no recuerdo al 100% como funciona, pero es cuestión de hecharle una revisada y lo hechamos a andar, la última vez que lo intenté fué con la legislatura actual y funcionó de maravilla.

comisiones.php saca las comisiones y las almacena en la tabla comisiones.php se nutre con //http://sitl.diputados.gob.mx/LXII_leg/listado_de_comisioneslxii.php?tct=1 //http://sitl.diputados.gob.mx/LXII_leg/listado_de_comisioneslxii.php?tct=2

distritos.php saca estados, ciudades por estado, y distritos por ciudad (no encuentro el link del que se nutre este script :S)

index.php saca los diputados por estado y distrito, se nutre de http://sitl.diputados.gob.mx/LXII_leg/listado_diputados_gpnp.php?tipot=TOTAL

iniciativas.php un pequeño ejemplo, fué el script inicial, comparó iniciativas de 30 diputados y 14 las tenían repetidas, de eso derivó la inquietud de hacer los demás scrappers

iniciativasComision.php este mounstruo es el que saca todas las iniciativas, las clasifica y las almacena, recorre las comisiones que se sacaron con comisiones.php, ahí viene el link

integrantes.php saca los integrantes de cada comision y los almacena en bbdd

El proyecto original está en: https://github.com/sigues/diputador

defvol commented 11 years ago

creo que nos falta un CONTRIBUTING.md

pero bueno, @sigues el formato que estamos usando es meter el código dentro de la carpeta "script/" como en https://github.com/CodeandoMexico/los-scrapers/tree/master/script y que cada scraper tenga un README.md en su directorio con instrucciones de como configurar, correr y probar el script.

ya con eso podemos probar y aceptar el pull request, cómo ves?

sigues commented 11 years ago

Listo, ya agregué lo que comentan, puse el readme con las instrucciones, ejecuté los scripts y puse el volcado con la información mas actualizada y cambié de carpeta los archivos

defvol commented 11 years ago

@sigues

los proyectos van dentro de la carpeta script... en este caso sería script/diputador

y también deben tener un README.md para indicar pasos para correr. P.ej. el del INEGI https://github.com/CodeandoMexico/los-scrapers/tree/master/script/inegi

defvol commented 11 years ago

Creo que la carpeta está duplicada.

screen shot 2013-08-16 at 12 13 40 am