montera34 / escovid19data

Recopilación de datos de COVID19 por provincias en España
Other
81 stars 23 forks source link

Escovid19data: Capturando colaborativamente datos de COVID-19 por provincias en España

GitHub license GitHub commit DOI

¿Puedes utilizar los datos? ¿Cómo colaborar?

Por supuesto puedes usar los datos recopilados, para eso están. Pon link a este repositorio (https://github.com/montera34/escovid19data) e indica que el proyecto es Escovid19data. Liberamos los datos para que hagas con ellos lo que quieras. Si nos citas, mejor, para mantener la trazabilidad de los datos. Nos encantará saber que usas los datos, escríbemos a covid19@montera34.com o tuitea con #escovid19data. Ver condiciones de la licencia con que compartimos los datos.

Puedes ayudar colaborando activamente en la recopilación de datos o detectando errores y notificándolos. Anímate a participar. Puedes ponernos un email (covid19@montera34.com), o mejor, crear un incidencia.

Los datos / The data

Los datos por provincias se publican en este CSV: /data/output/covid19-provincias-spain_consolidated.csv, también se publican en formato .xls y .rds.

Se han creado datos agregados por comunidades autónomas y para toda España en el directorio /data/output/ en base a los datos provinciales. La fuente de los datos es la misma que la de las series provinciales pero no se indica en los propios archivos agregados por CCAA y para toda España:

Incluye el código del INE para las provincias y datos relativos a 100.000 habitantes. Cuando se indica 'NA' es que no hay datos disponibles.

Los datos se descargan de múltiples fuentes. Tanto los descargados automáticamente de repositorios de datos abiertos como los que se recopilan manualmente en una hoja de cálculo online compatida son luego procesados con este script de R en otro repositorio.

Los datos originales usados son almacenados en este directorio: /data/original/spain. Puedes acceder a datos más desagregados que ls provinicas, por ejemplo a datos por islas de Canarias o por área sanitaria en Galicia. Hay una carpeta por cada comunidad o ciudad autónoma. En los estados de git puedes acceder a cómo estaban los datos en cada momento.

EN

Data are published in this CSV file: /data/output/covid19-provincias-spain_consolidated.csv

It includes now INE code for provinces and data per 100.000 inhabitants. 'NA' is indicated when no data is available.

Variables

Datos originales | Original data:

Datos de RENAVE-ISCIII: la fecha de inicio de síntomas o, en su defecto, la fecha de diagnóstico menos 6 días (con prefijo num_) (fuente: https://cnecovid.isciii.es/covid19/resources/datos_provincias.csv, que desde el 2020-12-30 pasa a usarse https://cnecovid.isciii.es/covid19/resources/casos_diagnostico_provincia.csv), variables explicadas en https://cnecovid.isciii.es/covid19/resources/metadata_ccaadecl_prov_edad_sexo.pdf

Datos ISCIII, de este archivo https://cnecovid.isciii.es/covid19/resources/casos_hosp_uci_def_sexo_edad_provres.csv que tiene información de: Número de hospitalizaciones, número de ingresos en UCI y número de defunciones por sexo, edad y provincia de residencia. Asiganación de fecha_ Hospitalizaciones, ingresos en UCI, defunciones: los casos hospitalizados están representados por fecha de hospitalización (en su defecto, la fecha de diagnóstico, y en su defecto la fecha clave3, los casos UCI por fecha de admisión en UCI (en su defecto, la fecha de diagnóstico, y en su defecto la fecha claveⁱ) y las defunciones por fecha de defunción (en su defecto, la fecha de diagnóstico, y en su defecto la fecha claveⁱ.).

Datos calculados a partir de los datos de arriba | Calculated data:

Fuente de los datos y comentarios | Data sources and comments:

Variables extra en datos agregados por comunidades autónomas

Existen ciertas bases de datos oficiales del Ministerio de Sanidad que no se publican desagregadas por provincias y se incluen en las columnas que empiezan por mnt_:

Informes en PDF del Ministerio de Sanidad escrapeados por @mharias:

De la hoja de cálculo del Ministerio de Sanidad: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos/Fallecidos_COVID19.xlsx

Del archivo CSV del Ministerio de Sanidad: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Datos_Casos_COVID19.csv

De los PDF y XLSX de vacunación del Ministerio de Sanidad:

Población por provincias (2019)

Población por provincias del INE: https://www.ine.es/jaxiT3/Datos.htm?t=2852#!tabs-tabla

Datos de vacunaciones

Hemos empezado a recopilar los datos de vacunaciones publicados de Lunes a Viernes por Sanidad en esta dirección.

Esos datos son leídos y replicados aquí. Dejamos dos tipos de ficheros :

  1. Fichero diario con el formato: estado_vacunacion_añomesdía.csv. Con formato año cuatro dígitos, mes y día de dos dígitos.
  2. Fichero de datos acumulados con el nómbre de fichero : estado_vacunacion_.csv

Los campos del csv son los siguientes:

Estructura de archivos

├── analysis                        # para guardar los scripts de análisis y obtención de datos
│   ├── canarias
│   │   └── canarias_hospi_scrap.R          # obtiene datos de hospitalizados de Canarias
│   ├── descarga_andalucia.py               # obtiene y procesa datos de hospitalizados Andalucía
│   ├── procesar_por_provincia.R            # procesado de datos de Escovid19da. Se ha mudado archivo a otro repositorio
│   └── sanidad                 # scripts para scrapear y obtener datos de los PDF del Ministerio de Sanidad
│       ├── scrap_pdf_sanidad.ipynb
│       ├── scrap_pdf_sanidad_situacion.ipynb
│       └── test
├── andalucia-hospitalizados.csv            # borrable?
├── data                        # para almacenar los datos
│   ├── original                    # datos originales 
│   │   ├── andalucia-hospitalizados.csv
│   │   ├── covid19_spain_provincias.csv        # datos provenientes de la hoja de cálculo compartida original de Escovid19data. No se actualiza desde 2020-07-28
│   │   ├── datos_sanidad.csv               # datos de PDF de Ministerio de Sanidad por CCAA
│   │   ├── datos_sanidad_matriz.csv
│   │   ├── datos_sanidad_tabla.csv
│   │   ├── madrid_zbs.csv
│   │   ├── provincias-poblacion.csv
│   │   └── shapes                  # contornos para mapas
│   │       └── recintos_provinciales_inspire_peninbal_etrs89.json
│   └── output                      # archivos de la base de datos para descarga
│       ├── covid19-ccaa-spain_consolidated.csv
│       ├── covid19-ccaa-spain_consolidated.rds
│       ├── covid19-ccaa-spain_consolidated.xlsx
│       ├── covid19-provincias-spain_consolidated.csv
│       ├── covid19-provincias-spain_consolidated.rds
│       ├── covid19-provincias-spain_consolidated.xlsx
│       ├── covid19-spain_consolidated.csv
│       ├── covid19-spain_consolidated.rds
│       └── covid19-spain_consolidated.xlsx
├── docs                        # para guardar documentos
├── escovid19data.Rproj             # borrable? (ya no se procesan los datos en este repositorio)
├── LICENSE.md
└── README.md

Sobre la iniciativa

Este es un proyecto colaborativo para recopilar datos sobre COVID-19 en España por provincias.

Contacto: covid19@montera34.com

¿Quíen está detrás de esto?

Hay muchas personas que nos habéis ayudado y aportado pistas. Gracias a todas por colaborar.

Ahora mismo, estamos manteniendo los datos y amadrinando provincias y comunidades autónomas o han ayudado en alún momento: @ProsumidorSoc @numeroteca @arivero @ManoloYuri @congosto @skotperez @allisdata @acorsin @hhkaos @belengarcia_8 @Tejerauskas @aniol @zgzmiki89 @mota_santiago @nachotronic @puzzle72 @montera34 @alfonsotwr @lipido @danielegrasso @picanumeros @walyt @JKniffki @harlesden88, @crisalpas, @otro_mas1, @fdezordonez.

Coordina el proyecto @numeroteca. Actualiza los datos a diario (desde abril de 2021) @puzzle72.

Si se nos olvida alguien ¡avísanos!

Cada cual se encarga de amadrinar una comunidad autónoma. Ver sección "Organización" de la hoja de cálculo.

Visualizaciones y uso de los datos

Una lista más actualizada y completa puede encontrarse en la wiki del proyecto: https://github.com/montera34/escovid19data/wiki/Qui%C3%A9n-utiliza-los-datos-de-escovid19data

Mándanos tu análisis o visualización si usas estos datos (covid19@montera34.com):

Actualizado diariamente:

No se actualizan:

Prensa, Artículos científicos

Puedes ver un listado actualizado en la wiki de Escovid19data dedicada a documentar dónde se usan los datos. Ayúdanos a completarla.

Fuentes de información y estado de la base de datos

Puedes ver el análisis sobre las fuentes de información y el estado de la base de datos en este informe automatizado.

Se han usado varias fuentes, la mayoría oficiales, algunas periodísicas, que se indican en cada una de los datos por día y provincia en la columna "source". Puedes leer más información sobre cada una de las fuentes en este documento.

También puedes encontrar (y contribuir) información más actualizada en la wiki de este repositorio.

En la wiki puedes encontrar información sobre las fuentes e historia de la recopilació nde datos de cada comunidad autónoma.

Cómo funciona el proceso de obtención y publicación de los datos

Cada madrina, reponsable de conseguir los datos, de una comunidad autónoma o provincia sube los datos a una hoja de cálculo común o busca fuentes que podamos descargar y procesar automáticamente.

Los datos de esa hoja de cálculo se descargaban en este CSV: data/original/covid19_spain_provincias.csv para ser procesados con el script de R, pero ahora el script hace mucho más que eso. Descarga los datos de cada una de las pestañas y fuentes originales, procesa y une los datos y genera el CSV listo para usarse /data/output/covid19-provincias-spain_consolidated.csv. También puedes descargar los datos en formato .xlsx y .rds.

No todos los datos están disponibles en la hoja de cálculo compartida, como se indica en algunas comunidades se obtiene directamente de la fuente.

El proyecto tiene un grupo de Telegram con el que nos coordinamos. Escribe a covid19@montera34.com para apuntarte, colaborar y saber más.