sacundim / covid-19-puerto-rico

COVID-19 data and graphs for Puerto Rico
13 stars 6 forks source link

Datos y análisis del COVID-19 en Puerto Rico

(For English click here)

Este projecto, en curso desde mayo del 2020, captura datos sobre el COVID-19 en Puerto Rico y produce los análisis y visualizaciones que se presentan en la siguiente web:

Entre los análisis que realiza este proyecto, resalto aquí los siguientes:

Captura de datos

El subdirectorio downloader/ contiene la aplicación de captura e ingesta de datos, que diariamente captura una selección de datos de estas fuentes principales y los ingesta a un "lago de datos" en Amazon S3:

  1. Descargas CSV diarias del tablero de estadísticas de COVID-19 del Departamento de Salud de Puerto Rico;
  2. Descargas JSON diarias del API de Bioestadísticas del Departamento de Salud de Puerto Rico.
  3. Descargas CSV a varios ritmos de la página HealthData.gov del Departamento de Salud y Servicios Humanos de los Estados Unidos y la semejante página data.cdc.gov de los Centros de Control de Enfermedades (CDC);

Adicionalmente existe una colección de datos más viejos (muchos capturados a mano) de estas fuentes:

Limpieza y análisis de datos

El grueso de la limpieza y análisis de datos está construida en SQL como un proyecto de la herramienta DBT, y corre bajo Amazon Athena, un servicio de SQL en la nube. El código está en este directorio:

Generador de páginas estáticas

Las páginas web son 100% estático (no hay ningún código que ejecute en servidores HTTP, solo HTML y Javascript en el cliente). La aplicación que las genera se halla en este directorio:

Las gráficas son hechas con el excelente sistema Vega-Lite y su interfaz en Python Vega-Altair.

Análisis Nextstrain (vigilancia genómica viral)

Aparte del proyecto en este repositorio, también mantengo otro repositorio en que adapto y especializo a Puerto Rico el proyecto de filogenia genómica viral de COVID-19 que elabora el proyecto Nextstrain. Mi visualización se puede ver en este enlace.

Agradecimientos

A Robby Cortés (@RobbyCortes en Twitter) y Angélica Serrano-Román (@angelicaserran0) que diligentemente publicaron los boletines del Departamento de Salud todas las mañanas en los dias tempranos de la pandemia.

A Danilo Pérez Prof. Rafael Irizarry por muchas sugerencias e información valiosa.

Al Fideicomiso de Salud de Puerto Rico por facilitar la publicación de datos gubernamentales valiosos temprano en la pandemia.