Por supuesto puedes usar los datos recopilados, para eso están. Pon link a este repositorio (https://github.com/montera34/escovid19data) e indica que el proyecto es Escovid19data. Liberamos los datos para que hagas con ellos lo que quieras. Si nos citas, mejor, para mantener la trazabilidad de los datos. Nos encantará saber que usas los datos, escríbemos a covid19@montera34.com o tuitea con #escovid19data. Ver condiciones de la licencia con que compartimos los datos.
Puedes ayudar colaborando activamente en la recopilación de datos o detectando errores y notificándolos. Anímate a participar. Puedes ponernos un email (covid19@montera34.com), o mejor, crear un incidencia.
Los datos por provincias se publican en este CSV: /data/output/covid19-provincias-spain_consolidated.csv, también se publican en formato .xls y .rds.
Se han creado datos agregados por comunidades autónomas y para toda España en el directorio /data/output/
en base a los datos provinciales. La fuente de los datos es la misma que la de las series provinciales pero no se indica en los propios archivos agregados por CCAA y para toda España:
Incluye el código del INE para las provincias y datos relativos a 100.000 habitantes. Cuando se indica 'NA' es que no hay datos disponibles.
Los datos se descargan de múltiples fuentes. Tanto los descargados automáticamente de repositorios de datos abiertos como los que se recopilan manualmente en una hoja de cálculo online compatida son luego procesados con este script de R en otro repositorio.
Los datos originales usados son almacenados en este directorio: /data/original/spain. Puedes acceder a datos más desagregados que ls provinicas, por ejemplo a datos por islas de Canarias o por área sanitaria en Galicia. Hay una carpeta por cada comunidad o ciudad autónoma. En los estados de git puedes acceder a cómo estaban los datos en cada momento.
EN
Data are published in this CSV file: /data/output/covid19-provincias-spain_consolidated.csv
It includes now INE code for provinces and data per 100.000 inhabitants. 'NA' is indicated when no data is available.
date
Día en formato aaaa-mm-dd | Day in yyyy-mm-dd formatprovince
Provincia | Provinceine_code
Código de provinci del INE | INE code fro the provinceccaa
Comunidad autónoma | Region new_cases
Número de nuevos casos COVID-19 detectados | Number of new COVID-19 cases PCR
Número de nuevos casos detectados COVID-19 por PCR | Number of new COVID-19 cases detected with PCRTestAc
Número de nuevos casos detectados COVID-19 por test de anticuerpos | Number of new COVID-19 cases detected with Acactivos
Casos de COVID-19 activos | Active COVID-19 caseshospitalized
Hospitalizados prevalentes | Hospitalized. Ver | View wikihospitalized_new
Ingresos nuevos ese díahospitalized_accumulated
Hospitalizados acumuladosintensive_care
Pacientes en UCI | UCI (intensive care patiens)deceased
Deaths (cumulative)cases_accumulated
Casos COVID-19 detectados acumulado | Number of new COVID-19 cases (cumulative)cases_accumulated_PCR
Casos COVID-19 detectados por PCR acumulado | Number of new COVID-19 cases detected with PCR (cumulative)recovered
Recuperados | Recoveredpoblacion
Población de la provincia | Inhabitants of the provinceDatos de RENAVE-ISCIII: la fecha de inicio de síntomas o, en su defecto, la fecha de diagnóstico menos 6 días (con prefijo num_
) (fuente: https://cnecovid.isciii.es/covid19/resources/datos_provincias.csv, que desde el 2020-12-30 pasa a usarse https://cnecovid.isciii.es/covid19/resources/casos_diagnostico_provincia.csv), variables explicadas en https://cnecovid.isciii.es/covid19/resources/metadata_ccaadecl_prov_edad_sexo.pdf
num_casos
el número de casos totales, confirmados o probables del díanum_casos_cum1
el número de casos num_casos
acumulado (calculado a partir del anterior) num_casos_avg7
el número de casos diarios medio calculado con ventana de 7 días de la variable num_casos
num_casos_prueba_pcr
el número de casos con prueba de laboratorio PCR o técnicas molecularesnum_casos_prueba_test_ac
el número de casos con prueba de laboratorio de test rápido de anticuerposnum_casos_prueba_otras
el número de casos con otras pruebas de laboratorio, mayoritariamente por detección de antígeno o técnica Elisanum_casos_prueba_ag
Número de casos con prueba de laboratorio de test de detección de antígenonum_casos_prueba_elisa
Número de casos con prueba de laboratorio deserología de alta resolución (ELISA/ECLIA/CLIA)num_casos_prueba_desconocida
el número de casos sin información sobre la prueba de laboratorioDatos ISCIII, de este archivo https://cnecovid.isciii.es/covid19/resources/casos_hosp_uci_def_sexo_edad_provres.csv que tiene información de: Número de hospitalizaciones, número de ingresos en UCI y número de defunciones por sexo, edad y provincia de residencia. Asiganación de fecha_ Hospitalizaciones, ingresos en UCI, defunciones: los casos hospitalizados están representados por fecha de hospitalización (en su defecto, la fecha de diagnóstico, y en su defecto la fecha clave3, los casos UCI por fecha de admisión en UCI (en su defecto, la fecha de diagnóstico, y en su defecto la fecha claveⁱ) y las defunciones por fecha de defunción (en su defecto, la fecha de diagnóstico, y en su defecto la fecha claveⁱ.).
num_casos2
casos diarios. "Número decasos notificados confirmados con una prueba diagnóstica positiva de infección activa (PDIA) tal como se establece en la Estrategia de detección precoz, vigilancia y control de COVID-19 y además los casos notificados antes del 11 de mayo que requirieron hospitalización, ingreso en UCI o fallecieron con diagnóstico clínico de COVID-19, de acuerdo a las definiciones de caso vigentes en cada momento".num_casos_cum2
el número de casos num_casos2
acumuladonum_casos_avg7
el número de casos diarios medio calculado con ventana de 7 días de la variable num_casos2
num_hosp
Número de casoshospitalizadosnum_hosp_cum
hospitalizados acumuladosnum_uci
Número de casos ingresados en UCInum_uci_cum
Número de casos ingresados en UCI acumulados (calculado a partir del anterior)num_def
Número de defunciones.num_def_cum
Número de defunciones acumuladas (calculado a partir del anterior) cases_per_cienmil
Casos acumulados por 100.000 habitantes | Cumulative cases per 100,000 inhabitants
intensive_care_per_100000
Casos UCI por 100.000 habitantes | Intensive care per 100,000 inhabitants
hospitalized_per_100000
Hospitalizados por 100.000 habitantes | Intensive care per 100,000 inhabitants Ver | View wiki
deceassed_per_100000
Fallecidos acumulados por 1000.000 habitantes | Cumulative deaths per 100,000 inhabitants
cases_14days
Casos detectados en los últimos 14 días | Detected cases in the last 14 days
daily_cases
Casos diarios. Calculado como la diferencia de los casos acumulados . Calculated as a difference of cumulative cases reported.
daily_cases_avg7
Media de casos detectados (ventana de 7 días) | Average daily cases in the last 7 days (rolling average 7 days)
daily_cases_PCR_avg7
Media de casos PCR detectados (ventana de 7 días) | Average daily cases PCR in the last 7 days (rolling average 7 days)
daily_deaths
Fallecidos diarios . Calculated as a difference of cumulative deaths reported.
daily_deaths_inc
Porcentaje de nuevos falllecidos respecto de día anterior | Calculated as the percentage from last day
daily_deaths_avg3
Media de fallecidos en los últimos 3 días | Average daily deaths in the last 3 days (rolling average 3 days)
daily_deaths_avg7
Media de fallecidos en los últimos 7 días | Average daily deaths in the last 7 days (rolling average 7 days)
deaths_last_week
Fallecidos en los últimos 7 días | Deaths in the last 7 days.
num_casos_prueba_pcr_avg7
Media de casos (ventana de 7 días) de casos con prueba de laboratorio PCR o técnicas moleculares de los datos de RENAVE-ISCIII
ia14
Incidencia ccumulada 14 días (casos en los últimos 14 días por cada 100.000 habitantes) | Cases in 14 days by 100,000 inhabitants
Fuente de los datos y comentarios | Data sources and comments:
source_name
Nombre de la fuente separados por ; . No se incluye la referencia a los datos de RENAVE-ISCIII al ser redundante. Como se indica más arriba, las variable que empiezan por "num_" tienen todas ellas esa fuente. | Name of source of information, separated by ;source
URL de la fuente separado por ; | Source URL of information, separated by ;comments
COmentario sobre los datos | Comments of the dataExisten ciertas bases de datos oficiales del Ministerio de Sanidad que no se publican desagregadas por provincias y se incluen en las columnas que empiezan por mnt_
:
Informes en PDF del Ministerio de Sanidad escrapeados por @mharias:
mnt_pdf_deceased
Fallecidos acumulados.De la hoja de cálculo del Ministerio de Sanidad: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos/Fallecidos_COVID19.xlsx
mnt_daily_deaths
Fallecidos diarios publicadosmnt_deceased
Fallecidos acumulados calculados a partir de los datos diarios Del archivo CSV del Ministerio de Sanidad: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Datos_Casos_COVID19.csv
mnt_csv_daily_cases
Casos diarios | Daily casesmnt_csv_new_hosp
Nuevos hospitalizados diarios | New daily hospitalizationsmnt_csv_new_ic
Nuevos hospitalizados en UCI | New daily in intensive caremnt_csv_daily_deaths
Fallecidos diarios | Daily deathsmnt_csv_deceased
Fallecidos acumulados calculados a partir de los datos diarios | Cumulative deaths (calculate)De los PDF y XLSX de vacunación del Ministerio de Sanidad:
vac_dosis_entregadas
Dosis.entregadasvac_dosis_administradas
Dosis.administradasvac_perc_entregadas
% de administradas sobre entregadasvac_date_data
Última fecha de actualización de datos vac_date_last
Fecha de la última vacuna registrada vac_date_published
Fecha de publicación del informePoblación por provincias del INE: https://www.ine.es/jaxiT3/Datos.htm?t=2852#!tabs-tabla
Hemos empezado a recopilar los datos de vacunaciones publicados de Lunes a Viernes por Sanidad en esta dirección.
Esos datos son leídos y replicados aquí. Dejamos dos tipos de ficheros :
estado_vacunacion_añomesdía.csv
.
Con formato año cuatro dígitos, mes y día de dos dígitos.estado_vacunacion_.csv
Los campos del csv
son los siguientes:
date_pub
: fecha de publicación del informeccaa
: Comunidad/Ciudad autónoma Dosis entregadas Pfizer
: dosis entregadas a la Comunidad/Ciudad Dosis entregadas Moderna
: idem Dosis entregadas AstraZeneca
: idem Dosis entregadas
: suma de las entregadas de los tres fabricantes Dosis administradas % sobre entregadas
:cociente de vacunas administradas sobre vacunas entregadas Total pauta completada
: total de pautas completadas o dobles vacunaciones Última fecha de actualización de datos
: fecha indicada en la tabla como última con actualización Fecha de la ultima vacuna registrada
: este campo no está en uso actualmente source_name
: nombre la fuente Sanidad
en todos los casos source
: link al fichero original de los datos├── analysis # para guardar los scripts de análisis y obtención de datos
│ ├── canarias
│ │ └── canarias_hospi_scrap.R # obtiene datos de hospitalizados de Canarias
│ ├── descarga_andalucia.py # obtiene y procesa datos de hospitalizados Andalucía
│ ├── procesar_por_provincia.R # procesado de datos de Escovid19da. Se ha mudado archivo a otro repositorio
│ └── sanidad # scripts para scrapear y obtener datos de los PDF del Ministerio de Sanidad
│ ├── scrap_pdf_sanidad.ipynb
│ ├── scrap_pdf_sanidad_situacion.ipynb
│ └── test
├── andalucia-hospitalizados.csv # borrable?
├── data # para almacenar los datos
│ ├── original # datos originales
│ │ ├── andalucia-hospitalizados.csv
│ │ ├── covid19_spain_provincias.csv # datos provenientes de la hoja de cálculo compartida original de Escovid19data. No se actualiza desde 2020-07-28
│ │ ├── datos_sanidad.csv # datos de PDF de Ministerio de Sanidad por CCAA
│ │ ├── datos_sanidad_matriz.csv
│ │ ├── datos_sanidad_tabla.csv
│ │ ├── madrid_zbs.csv
│ │ ├── provincias-poblacion.csv
│ │ └── shapes # contornos para mapas
│ │ └── recintos_provinciales_inspire_peninbal_etrs89.json
│ └── output # archivos de la base de datos para descarga
│ ├── covid19-ccaa-spain_consolidated.csv
│ ├── covid19-ccaa-spain_consolidated.rds
│ ├── covid19-ccaa-spain_consolidated.xlsx
│ ├── covid19-provincias-spain_consolidated.csv
│ ├── covid19-provincias-spain_consolidated.rds
│ ├── covid19-provincias-spain_consolidated.xlsx
│ ├── covid19-spain_consolidated.csv
│ ├── covid19-spain_consolidated.rds
│ └── covid19-spain_consolidated.xlsx
├── docs # para guardar documentos
├── escovid19data.Rproj # borrable? (ya no se procesan los datos en este repositorio)
├── LICENSE.md
└── README.md
Este es un proyecto colaborativo para recopilar datos sobre COVID-19 en España por provincias.
Contacto: covid19@montera34.com
Hay muchas personas que nos habéis ayudado y aportado pistas. Gracias a todas por colaborar.
Ahora mismo, estamos manteniendo los datos y amadrinando provincias y comunidades autónomas o han ayudado en alún momento: @ProsumidorSoc @numeroteca @arivero @ManoloYuri @congosto @skotperez @allisdata @acorsin @hhkaos @belengarcia_8 @Tejerauskas @aniol @zgzmiki89 @mota_santiago @nachotronic @puzzle72 @montera34 @alfonsotwr @lipido @danielegrasso @picanumeros @walyt @JKniffki @harlesden88, @crisalpas, @otro_mas1, @fdezordonez.
Coordina el proyecto @numeroteca. Actualiza los datos a diario (desde abril de 2021) @puzzle72.
Si se nos olvida alguien ¡avísanos!
Cada cual se encarga de amadrinar una comunidad autónoma. Ver sección "Organización" de la hoja de cálculo.
Una lista más actualizada y completa puede encontrarse en la wiki del proyecto: https://github.com/montera34/escovid19data/wiki/Qui%C3%A9n-utiliza-los-datos-de-escovid19data
Mándanos tu análisis o visualización si usas estos datos (covid19@montera34.com):
Actualizado diariamente:
No se actualizan:
Puedes ver un listado actualizado en la wiki de Escovid19data dedicada a documentar dónde se usan los datos. Ayúdanos a completarla.
Puedes ver el análisis sobre las fuentes de información y el estado de la base de datos en este informe automatizado.
Se han usado varias fuentes, la mayoría oficiales, algunas periodísicas, que se indican en cada una de los datos por día y provincia en la columna "source". Puedes leer más información sobre cada una de las fuentes en este documento.
También puedes encontrar (y contribuir) información más actualizada en la wiki de este repositorio.
En la wiki puedes encontrar información sobre las fuentes e historia de la recopilació nde datos de cada comunidad autónoma.
Cada madrina, reponsable de conseguir los datos, de una comunidad autónoma o provincia sube los datos a una hoja de cálculo común o busca fuentes que podamos descargar y procesar automáticamente.
Los datos de esa hoja de cálculo se descargaban en este CSV: data/original/covid19_spain_provincias.csv
para ser procesados con el script de R, pero ahora el script hace mucho más que eso. Descarga los datos de cada una de las pestañas y fuentes originales, procesa y une los datos y genera el CSV listo para usarse /data/output/covid19-provincias-spain_consolidated.csv. También puedes descargar los datos en formato .xlsx y .rds.
No todos los datos están disponibles en la hoja de cálculo compartida, como se indica en algunas comunidades se obtiene directamente de la fuente.
El proyecto tiene un grupo de Telegram con el que nos coordinamos. Escribe a covid19@montera34.com para apuntarte, colaborar y saber más.