datosgobar / series-tiempo-ar-scraping

ETL y servidor web para scrapear series de tiempo de Excels semi-estructurados y transformarlos en distribuciones de formato abierto, basado en una extensión experimental del Perfil Nacional de Metadatos de la política de apertura de datos de la APN.
MIT License
9 stars 7 forks source link

Revisar implementación que genera un segundo archivo CSV ante un cambio de nombre, en lugar de reemplazar el anterior #32

Closed abenassi closed 6 years ago

abenassi commented 6 years ago

Contexto

Hoy, ante un cambio de nombre de una distribución existente se genera un segundo archivo y falla el scraping de la distribución por este motivo (requiere que haya un único archivo en el directorio de una determinada distribución).

Propuesta

Revisar la implementación de manera que se reemplace el archivo CSV ante un cambio de nombre en lugar de agregar uno nuevo.

Exception(u'2 archivos para la distribucion 370.1 del dataset 370\n/home/deploy/series-tiempo-ar-scraping/data/input/catalog/sspm/dataset/370/distribution/370.1/download/*.csv',)
abenassi commented 6 years ago

@federicotdn surgió un problema con el scraper + ETL de series de tiempo en la sspm debido a este motivo. Cuando puedas abordarlo fijate porfa de priorizarlo antes que otras cosas así cerramos esa brecha de inestabilidad en el scraper.