montera34 / escovid19data

Recopilación de datos de COVID19 por provincias en España
Other
81 stars 23 forks source link

Optimización de la descarga y recopilación de datos de Escovid19data #34

Open numeroteca opened 3 years ago

numeroteca commented 3 years ago

Estamos evaluando reestructurar y optimizar el código para procesar todos los datos.

Actualmente los datos se descargan de múltiples fuentes. Tanto los descargados automáticamente de repositorios de datos abiertos como los que se recopilan manualmente en una hoja de cálculo online compartida son luego procesados con este script de R en otro repositorio.

Este script cumple varias funciones:

  1. descarga y archiva en sus directorios correspondientes los datos por provincias de cada CCAA
  2. inserta estos datos, convenientemente transformados cuando no lo están en origen (cambio de nombre de variables, transformación de alguntas...) en una base de datos única (archivo .csv) por provincias
  3. inserta datos originales de otras fuentes como RENAVE-ISCIII y los PDF del Ministerio de Sanidad
  4. calcula una serie de variables (medias, valores de 14 días, IA14...) basadas en los datos originales
  5. agrega los datos por comunidades autónomas. Esta no es una operación trivial dado que hay muchos "agujeros" en los datos.
  6. agrega los datos para toda España.
  7. crea archivos descargables por provincias, agregados por CCAA y para toda España

Tienes un introducción a cómo hacer funcionar este script en la wiki.

Problemas

Vías de trabajo

Este hilo tiene como objetivo diseñar colectivamente un sistema más eficiente y distribuido. Lanzo algunas ideas:

Os animo a volcar ideas para desarrollar esto.

Abriremos otro hilo para pensar en las visualizaciones, fundamentales para vverificar que los datos son corrrectos.

kifirifis commented 3 years ago

Dejo esta pequeña idea por aquí para un csv simplificado. Faltaría detallar un poco más y quizá hacer otros flujos para vacunas, hospitalizados, procesados... tal y como comentas @numeroteca. La idea general que propongo es refactorizar por módulos.
provisional

penguinjournals commented 3 years ago

Hola, Llevo un buen rato revisando la base de código y pensando en como afrontar un refactor. Mi primera cuestión es como plantear la validación de que el refactor es correcto.

Dado que el contenido de la carpeta data se sube al repositorio todos los dias ¿tiene sentido que la manera de verificar que cuando haces un refactor funciona bien sea verificar que el contenido de tu carpeta data y el de la carpeta data de el repositorio sean el mismo?

La verdad es que la base de código actual es muy grande y afrontar el refactor tiene su miga.