Closed froi closed 4 years ago
El problema se debe a un bug en SuministrosPR.com que permite tener "chilld topics" bajo un municipio. Si se visita la página de Yauco se puede ver en la parte inferior un "child topic" llamado Yauco que contiene entradas adicionales (quizás duplicadas) para el dicho municipio. Dado que SuministrosPR.com solo permite añadir y modificar records, no es posible mover o modificar las entradas anidadas para arreglar el contenido previo al "web scraping".
Al mirar con detenimiento el código fuente de las páginas ("page source") se puede ver que en la sección de "breadcrumbs" se mantiene el "parent topic" del municipio seguido del "child topic". Como solución, se modificó el xpath
para que registre como municipio la primera instancia del "breadcrumb":
sector_data[:municipio] = response.xpath("//div[@class='breadcrumbs pauple_helpie_breadcrumbs']/a[@class='mainpage-link'][starts-with(@href, 'https://suministrospr.com/municipios/')][position()=1]").text
La corrección fue sometida en el commit https://github.com/Code4PuertoRico/suministrospr-web-scraper/commit/323fb7225d07e51ed80f2014d595fef47af51aa8.
En el data dump initial el municipio sale repetido en el archivo
Calle Mercurio Ave Munoz Marin frente viejo cementerio municipal Urb Vistas de Monte Sol.json
Archivo adjunto, as txt cause GitHub attachments:
Calle Mercurio Ave Munoz Marin frente viejo cementerio municipal Urb Vistas de Monte Sol.txt