Closed esteblock closed 4 years ago
Hola,
Vi que necesitaban esto y con tabula-py logré bastante. No es perfecto, no esta terminado y si el formato cambia habría que arreglarlo.
Les dejo lo que hice: https://colab.research.google.com/drive/1sKmXwo8ZuG5SjlOh_iMhAH2o4kNb-Zgp
Hola! Bkn! oyee, pucha le falta que le des acceso al proyecto. Le quiero dar con todo a este issue
Voy a ver si puedo aportar en esto
Ahí lo hice público.
Esta buenisimo el código, para el procesamiento del pdf solo usaste tabula verdad?
@Stepp1 Me gustó también el código. Eso serviría mientras no cambien la cantidad de tablas por informe y mientras no cambien el formato, cierto? Podríamos comenzar con ese código+revisón manual. Un script que pida confirmación.... Mejor que pasar los datos a mano
Bakán. Lo quieres poner como un pull request? O copio el notebook y lo subo?
Que bueno que les sirva! Lo pueden subir si quieren pero no está terminado.
Hay que revisar el problema final que puse al final del notebook. Ademas hay que verificar que todas las tablas hayan quedado bien formateadas.
Con respecto, a lo que dice @Vivitapatita, ustedes tienen automatizadas las tablas por region? Se ocurre que también se podria usar la suma de casos por comunas de cada región vs las tablas que contienen la info de cada región. Sin embargo, mantendría que alguien tenga que verificar los contenidos antes de subirlos.
Hola @Stepp1 . Si quieres te puedo ir ayudando a terminarlo, con pandas podemos revisar bien que las tablas queden en el buen formato. Estoy trabajando ahora en un script para actualizar de manera automática las tablas por región.
Yo tendría cuidado con eso de mezclar, porque el minsal en algunos informes actualiza al día de la publicación (los informes por región en general están actualizados al mismo día), pero los informes por comuna están actualizadas a un día de desfase.......
Dale nomás! Creo que el unico que tiene problemas es la últma tabla para ambos informes. Habría que hacer cambios en el else
en la parte de estandarización
Hola @Stepp1 , viste que agregué tu código a https://github.com/YachayData/COVID-19/blob/master/Herramientas/ProcesamientosInformesEPI/COVID_Descarga_y_Preprocesamiento_Informes_EPI_MINSAL.ipynb ? Le estoy haciendo unas modificaciones en mi computador, y voy a ir subiendo las nuevas versiones. Motívate con los pull request y yo te las voy aceptando :)
Esta super bueno @stepp1 , ahora una pregunta: sabes como adaptar la selección de tabula? Parece que fuese automática la selección y por eso algunas tablas juntan dos columnas en unas o ponen headers como filas. En concreto, el problema es que en los otros informes disponibles a la fecha surgen las siguientes excepciones como headers en vez del "Comuna" y "Unnamed" :
Región Población Continuación tabla N 8. Parral Unnamed: 0 & Tasa (excepción Comuna N° Continuación tabla 8 Mariquina Unnamed: 0 & Tasa incidencia Lago Verde // error Río Verde Tabla 10 (continuación)
Increíble la poca consistencia de los que generan los datos a través del tiempo.
Tabula funciona super bien con un poco de selección a la medida
Hasta ahora, @DiazSalinas se ocupa de pasar los informes de manera "semi-manual" usando Tabula. Si alguien quiere aportar en esto, este es el lugar para hacerlo!
Gracias @estebaniglesias. Dejé un script en https://github.com/YachayData/COVID-19/blob/master/herramientas/procesamiento_informes_EPI/COVID_Descarga_y_Preprocesamiento_InformeTemplate_EPI_MINSAL.ipynb que funciona con el ultimo informe disponible usando un selección aproximada y entrega un csv con las comunas
Se sigue la discusión en #13
Los informes detallados por comuna están siendo publicados por el minsal como "Informes Epidimiológicos". Por ahora se están publicando cada dos días. https://www.gob.cl/coronavirus/cifrasoficiales/
Pero son PDF con tablas. Necesitamos programar algo para extraerlas de manera automatizada