MapaCovid / COVID-19

Somos un grupo de voluntarios. Queremos ser la plataforma de mayor cantidad de datos y herramientas de análisis de datos relativas al COVID-19 en Chile.
MIT License
22 stars 15 forks source link

Extraer Información PDF por Comuna #1

Closed esteblock closed 4 years ago

esteblock commented 4 years ago

Los informes detallados por comuna están siendo publicados por el minsal como "Informes Epidimiológicos". Por ahora se están publicando cada dos días. https://www.gob.cl/coronavirus/cifrasoficiales/

Pero son PDF con tablas. Necesitamos programar algo para extraerlas de manera automatizada

stepp1 commented 4 years ago

Hola,

Vi que necesitaban esto y con tabula-py logré bastante. No es perfecto, no esta terminado y si el formato cambia habría que arreglarlo.

Les dejo lo que hice: https://colab.research.google.com/drive/1sKmXwo8ZuG5SjlOh_iMhAH2o4kNb-Zgp

esteblock commented 4 years ago

Hola! Bkn! oyee, pucha le falta que le des acceso al proyecto. Le quiero dar con todo a este issue

jcrucesdeveloper commented 4 years ago

Voy a ver si puedo aportar en esto

stepp1 commented 4 years ago

Ahí lo hice público.

jcrucesdeveloper commented 4 years ago

Esta buenisimo el código, para el procesamiento del pdf solo usaste tabula verdad?

Vivitapatita commented 4 years ago

@Stepp1 Me gustó también el código. Eso serviría mientras no cambien la cantidad de tablas por informe y mientras no cambien el formato, cierto? Podríamos comenzar con ese código+revisón manual. Un script que pida confirmación.... Mejor que pasar los datos a mano

esteblock commented 4 years ago

Bakán. Lo quieres poner como un pull request? O copio el notebook y lo subo?

stepp1 commented 4 years ago

Que bueno que les sirva! Lo pueden subir si quieren pero no está terminado.

Hay que revisar el problema final que puse al final del notebook. Ademas hay que verificar que todas las tablas hayan quedado bien formateadas.

Con respecto, a lo que dice @Vivitapatita, ustedes tienen automatizadas las tablas por region? Se ocurre que también se podria usar la suma de casos por comunas de cada región vs las tablas que contienen la info de cada región. Sin embargo, mantendría que alguien tenga que verificar los contenidos antes de subirlos.

esteblock commented 4 years ago

Hola @Stepp1 . Si quieres te puedo ir ayudando a terminarlo, con pandas podemos revisar bien que las tablas queden en el buen formato. Estoy trabajando ahora en un script para actualizar de manera automática las tablas por región.

Yo tendría cuidado con eso de mezclar, porque el minsal en algunos informes actualiza al día de la publicación (los informes por región en general están actualizados al mismo día), pero los informes por comuna están actualizadas a un día de desfase.......

stepp1 commented 4 years ago

Dale nomás! Creo que el unico que tiene problemas es la últma tabla para ambos informes. Habría que hacer cambios en el elseen la parte de estandarización

esteblock commented 4 years ago

Hola @Stepp1 , viste que agregué tu código a https://github.com/YachayData/COVID-19/blob/master/Herramientas/ProcesamientosInformesEPI/COVID_Descarga_y_Preprocesamiento_Informes_EPI_MINSAL.ipynb ? Le estoy haciendo unas modificaciones en mi computador, y voy a ir subiendo las nuevas versiones. Motívate con los pull request y yo te las voy aceptando :)

DiazSalinas commented 4 years ago

Esta super bueno @stepp1 , ahora una pregunta: sabes como adaptar la selección de tabula? Parece que fuese automática la selección y por eso algunas tablas juntan dos columnas en unas o ponen headers como filas. En concreto, el problema es que en los otros informes disponibles a la fecha surgen las siguientes excepciones como headers en vez del "Comuna" y "Unnamed" :

Región Población Continuación tabla N 8. Parral Unnamed: 0 & Tasa (excepción Comuna N° Continuación tabla 8 Mariquina Unnamed: 0 & Tasa incidencia Lago Verde // error Río Verde Tabla 10 (continuación)

Increíble la poca consistencia de los que generan los datos a través del tiempo.

DiazSalinas commented 4 years ago

Tabula funciona super bien con un poco de selección a la medida

esteblock commented 4 years ago

Hasta ahora, @DiazSalinas se ocupa de pasar los informes de manera "semi-manual" usando Tabula. Si alguien quiere aportar en esto, este es el lugar para hacerlo!

DiazSalinas commented 4 years ago

Gracias @estebaniglesias. Dejé un script en https://github.com/YachayData/COVID-19/blob/master/herramientas/procesamiento_informes_EPI/COVID_Descarga_y_Preprocesamiento_InformeTemplate_EPI_MINSAL.ipynb que funciona con el ultimo informe disponible usando un selección aproximada y entrega un csv con las comunas

esteblock commented 4 years ago

Se sigue la discusión en #13