montera34 / escovid19data

Recopilación de datos de COVID19 por provincias en España
Other
81 stars 23 forks source link

Datos de Andalucía desactualizados #7

Open VictorSeven opened 4 years ago

VictorSeven commented 4 years ago

Veo que hay algunos problemas en el CSV consolidado por provincias con respecto a los informes de la Junta, que estoy mirando en la misma fuente que utilizáis en el repo, https://www.juntadeandalucia.es/institutodeestadisticaycartografia/badea/operaciones/consulta/anual/39464?CodOper=b3_2314&codConsulta=39464

A partir del 25 de Julio de 2020, el campo cases_accumulated pasa a ser NaN, a pesar de que en la página de la Junta se ha seguido proporcionando este dato. Por lo que he podido observar, el script de análisis en R llama a una hoja de cálculo de Google (línea 241) que se indica en un comentario que se actualiza manualmente. Siguiendo el enlace, las últimas fechas de esta hoja de Google son del 24 de Julio, por lo tanto, imagino que es la 'culpable' de que desde hace un mes algunos datos falten.

No es realmente un problema 'muy' grande, porque se pueden calcular los casos acumulados también usando el campo 'num_casos' del ISCIII, pero el NaN afecta también a algunos de los observables que salen automáticamente, como los daily_cases o las medias móviles a 14 días. Como digo, se puede re-calcular todo con alguna vuelta, pero lo ideal sería actualizar el documento de Google o bien hacer un poco de parsing para obtener automáticamente los datos de la página de la Junta.

numeroteca commented 4 years ago

Hola Victor, Gracias por el mensaje. El problema que veo es que esa URL que envías solamente da datos de agosto 2020 (faltarían los datos de final de julio). Una manera fácil de completar esos datos sería completar esa hoja de cálculo ¿te animas a hacerlo? Te tendríamos que dar acceso de edición a la hoja de cálculo

Por aclarar: ¿faltan los caso cases_accumulated pero no los cases_PCR_accumulated?

Otra opción es cambiar la fuente actual de la hoja de cálculo por una que tenga todos los datos que hacen falta. Es esta parte del código https://code.montera34.com:4443/numeroteca/covid19/-/blob/master/analysis/process_spain_provinces_data.R#L278

VictorSeven commented 4 years ago

Hola!

La web que he mandado, al fondo, tiene un enlace para mostrar la serie completa de datos, desde Febrero 2020. Si no recuerdo mal sí, lo que falta son los casos acumulados pero los de PCR están correctos.

No me importa echar un cable a arreglar los datos de Andalucía. Me he hecho un script de Python que procesa todas las columnas de la tabla y las formatea correctamente, generando un CSV similar al data/original/spain/andalucia/andalucia.csv que tenéis vosotros. Como los datos de la página están un poco chungos, hay que hacer algo de corrección manual. Básicamente, me descargo el fichero de Excel o Calc, lo abro, y copio y pego manualmente la tabla a un fichero de texto plano (con gedit o notepad). A ese fichero se le pasa el script de Python, generando un CSV bastante bonito.

El mío tiene esta pinta...

Fecha,Territorio,Confirmados_PCR,Confirmados_PCR_14_días,Confirmados_PCR_7_días,Total_confirmados,Hospitalizados,Total_UCI,Fallecidos,Curados
2020-02-26,Sevilla,0,0,0,1,0,0,0,0
2020-02-26,Andalucía,0,0,0,1,0,0,0,0
2020-02-26,Almería,0,0,0,0,0,0,0,0
2020-02-26,Cádiz,0,0,0,0,0,0,0,0
2020-02-26,Málaga,0,0,0,0,0,0,0,0
2020-02-26,Granada,0,0,0,0,0,0,0,0
2020-02-26,Jaén,0,0,0,0,0,0,0,0
2020-02-26,Córdoba,0,0,0,0,0,0,0,0
2020-02-26,Huelva,0,0,0,0,0,0,0,0
2020-02-27,Sevilla,0,0,0,1,0,0,0,0
2020-02-27,Málaga,0,0,0,4,0,0,0,0
2020-02-27,Jaén,0,0,0,0,0,0,0,0
2020-02-27,Huelva,0,0,0,0,0,0,0,0

etc, y por comparación el vuestro luce así:

"Fecha","Territorio","Confirmados","Hospitalizados","Total UCI","Fallecimientos","Curados","Nuevos casos","Confirmados PCR","Confirmados PCR <14dias","Confirmados PCR 7 días","source",""
"26/02/2020","Almería","0","0","0","0","0","0","","","","https://www.juntadeandalucia.es/institutodeestadisticaycartografia/badea/informe/anual?CodOper=b3_2314&idNode=42348",""
"26/02/2020","Cádiz","0","0","0","0","0","0","","","","https://www.juntadeandalucia.es/institutodeestadisticaycartografia/badea/informe/anual?CodOper=b3_2314&idNode=42348",""
"26/02/2020","Córdoba","0","0","0","0","0","0","","","","https://www.juntadeandalucia.es/institutodeestadisticaycartografia/badea/informe/anual?CodOper=b3_2314&idNode=42348",""
"26/02/2020","Granada","0","0","0","0","0","0","","","","https://www.juntadeandalucia.es/institutodeestadisticaycartografia/badea/informe/anual?CodOper=b3_2314&idNode=42348",""
"26/02/2020","Huelva","0","0","0","0","0","0","","","","https://www.juntadeandalucia.es/institutodeestadisticaycartografia/badea/informe/anual?CodOper=b3_2314&idNode=42348",""
"26/02/2020","Jaén","0","0","0","0","0","0","","","","https://www.juntadeandalucia.es/institutodeestadisticaycartografia/badea/informe/anual?CodOper=b3_2314&idNode=42348",""

Si el documento de Google que estáis rellenando vosotros para generar esta tabla la hacéis a mano, no me importaría pasaros el script que he hecho o ser responsable de actualizar semanalmente el CSV con estos datos de la Junta. Probablemente de hecho mi script se puede modificar sin mucho esfuerzo para generar un CSV idéntico al vuestro ahora mismo, con lo cual el esfuerzo es mínimo.

Con lo cual ya según os parezca lo más eficiente. Yo espero subir todas mis cosas la próxima semana a GitHub, en todo caso.

numeroteca commented 4 years ago

Por lo que parece con el script que tienes bastaría con subir los datos a la hoja de cálculo para tener el histórico con lo datos que nos faltan ¿sabes si se van modificando esos datos en días antiguos o está estable?

Escribe a covid19@montera34.com y te damos acceso a la hoja de cálculo para que subas tú mismo los datos. O nos pasas el archivo por aquí o lo publicas en un repositorio, como quieras.

Además, si quieres participar en el grupo de telegram de escovid19data estás invitado.

Nota: actualmente los datos de Andalucía los cogemos de forma automatizada de los repositorios de datos abiertos de Andalucía, menos los hospitaliados que se encarga @congosto de ello. Para fechas anteriores usamos los datos que tenemos en la hoja de cálculo. Con tu aportación parece que conseguiremos completar las series de hospitalizados en Andalucía. Ver wiki sección Andalucía

2020.08 Para los hospitalizados @congosto ha desarrollado un script de Python para conseguir los hospitalizados y de cuidados intensivos a partir de los datos originales que publica la junta de Andalucía. Están disponibles en https://github.com/montera34/escovid19data/raw/master/data/original/andalucia-hospitalizados.csv

VictorSeven commented 3 years ago

Perdón por el retraso en la respuesta, he estado un poco liado estos días con una mudanza... No sé si se van modificando los anteriores o queda estable. Mañana cuando actualice los datos de la semana te respondo.

El archivo y la forma en la que lo genero está disponible en este repo de GitHub que he hecho, en concreto, en data/datos_andalucia_ultimo.csv. Si queréis echar un ojo y sacar los datos de ahí, y si no escribo al correo y subo yo mismo el archivo al servidor.

Le echaré un vistazo también al script de hospitalizados a ver qué tal, pinta bien para completar datos. Muchas gracias de antemano!

numeroteca commented 3 years ago

Entonces de datos_andalucia_ultimo.csv lo que habría que insertar en nuestra base de datos es exclusivamente la columna Total_confirmados porque el resto ya está ¿me confirmas?

VictorSeven commented 3 years ago

Confirmo que sí. A partir de esta semana comienzo ya a actualizar con regularidad semanal, una vez estabilizada un poco de situación personal :) Ahora mismo deben estar los datos hasta las primeras semanas de Septiembre

Si hay cualquier otro problema con los datos o queréis contactar conmigo para el tema que sea, me podéis encontrar también por aquí: https://victorseven.github.io/about/

Un saludo!!