transparentegt / portal

Scrapper del portal de Guatecompras
GNU General Public License v3.0
14 stars 5 forks source link

scrapeo de datos de proyectos #31

Closed str closed 10 years ago

str commented 10 years ago

Para cada uno de los proveedores hay que leer todos los proyectos adjudicados e insertarlos en la base de datos.

str commented 10 years ago

@mirandapablog ya empecé con el controller y modelos en la rama feature/gh-031 https://github.com/str/gtt/tree/feature/gh-031 ProyectoModel->scrapList() ya se encarga de sacar el array de IDs de proyectos. Aquí no podemos hardcodedar cuantas páginas hay que leer porque para cada proyecto son diferentes.

Nuevo reto :wink:

mirandapablog commented 10 years ago

de hecho ya me había topado con el issue y se me ocurrió una posible solución que podemos aplicar a la mayoria de paginas a scrappear, dado que al capturar la primera página siempre tenemos todo el doom podemos parsear el numero de items y calcular el número de paginas xDDD

guatecompras - resumen adjudicaciones proveedor

mirandapablog commented 10 years ago

BTW eso también nos podría dar un indicador de que ha aumentado, que han ingresado más items y disparar un auto scrap :P

str commented 10 years ago

Me parece, entonces en la primera página seteamos la variable que recibmos por referencia con el total de páginas a leer. Ahora solo espero tu pull request para ese cambio en el ScrapModel :wink:

str commented 10 years ago

Listo, ya leemos proyectos, YEEEY!