datadista / datasets

Fuente de datos de los reportajes y proyectos de periodismo de investigación y datos de DATADISTA
GNU Affero General Public License v3.0
328 stars 264 forks source link

Nuevos datos Instituto Carlos III #48

Closed adelgadob closed 4 years ago

adelgadob commented 4 years ago

El Instituto Carlos III ha empezado a publicar a finales de esta semana un CSV con los datos a nivel de CCAA: https://covid19.isciii.es/resources/serie_historica_acumulados.csv

Lo positivo:

Lo negativo:

Abro este issue para llegar a un consenso con el resto de reutilizadores. Las opciones son: 1) Incorporar los datos entre 2020-02-20 y 2020-03-16 del ICIII como los válidos 2) Cambiar todas las fechas a los datasets para poner como fecha de los datos el día de toma de datos. 3) Dejarlo todo como está e incorporar este dataset normalizado en fechas, códigos de CCAA en csv en columnas y csv formato largo como un dataset independiente.

¿Qué opináis?

JJ commented 4 years ago

Por partes.

  1. Me parece razonable. Supongo que como la fecha es anterior, eso se tendrá en cuenta a la hora de incorporarlo.
  2. Esto es jodido. Primero, porque es un trabajo manual, imagino, habrá que ir mirando fecha por fecha cómo va. Segundo, va a suponer un cambio de todos los resultados. Esto no tiene por qué ser un gran problema en el futuro a dos semanas vista, pero ahora podría ser problemático sobre todo para los datos que no sabemos muy bien en qué fecha son. Aparte, significaría cambiar la fecha "oficial" del ministerio.
  3. Es buena idea. Adicionalmente, se podrían añadir el resto de los datos que ellos no tienen, pero si no se hace no pasa nada, porque cualquier programa que los trate lo podrá hacer también.
ramiroaznar commented 4 years ago

Yo votaria por la opción 3. No veo muy lógico mezclar fuentes con diferentes metodologías de captura de datos, si lo he entendido bien.

Toméis la decisión que toméis, seguro que lo explicaréis perfectamente en los metadatos, así que no veo ningún problema grande si al final elegís cualquiera de los dos primeros puntos.

jmarxuach commented 4 years ago

Son los mismos datos en CSV. Todos acumulados por CCAA. Yo diria que los PDF se generar a partir de los datos del Carlos III. Independientemente, me parecen una "mierda de datos", yo espero más transparencia.

numeroteca commented 4 years ago

Para mi el objetivo sería tener unos datos que indicaran el número total de (casos, personas en UCI, fallecimientos...) del día al que se asignan, y no cuando se publican. Esto es voto por la opción 3.

Si entiendo bien, los datos del parte ministeriales han sido (aunque no lo indicara) los "datos consolidados a las 21:00 horas" del día anterior.

Aprovecho para dar las gracias por hacer esta labor.

4tikhonov commented 4 years ago

Hi @adelgadob, you don't have to change data that you've already collected and shared, it has own provenance (1) and history and was accepted as a Trusted source in the time when it was published. You also can break the consistency of data if you'll change something without informing all stakeholders about the motivation and explanation of the reason.

I'm also taking the archive with your datasets and sharing it with all researchers (2) keeping all credits to make it Findable, Accessible, Interoperable and Reusable, FAIR (3). It's helping to do a cross analysis and compare the spread of COVID-19 in the different countries and states. For example, you can read recent research of New York Times (4) with usage of the coronavirus data shared by the Ministry of Health of Italy, I'm pretty sure data from Spain will be used there as well.

My advise is keep the current dataset as is and add references to the source (and PDF) in the header of every CSV file, providing provenance information how and where it was published. New data from the El Instituto Carlos III should be added as separate file(s) with own provenance to make it Trusted. The persistency of the data is guaranteed by Dataverse (2), data repository that we're developing and using to exchange the data between all research groups worldwide (5).

I've added all references in the end to make it more clear: (1) What is Provenance (2) Coronavirus Disease 2019 (COVID-19) in Spain (3) The FAIR Data Principles (4) Some U.S. Cities Could Have Coronavirus Outbreaks Worse Than Wuhan’s (5) How to make your data FAIR

Regards, Slava Tykhonov Senior Data Scientist, DANS-KNAW, the Netherlands

MarcelaEpi commented 4 years ago

Hola a todos, Soy nueva en github, por eso disculpar si este no es el sitio para hacer la pregunta. Soy epidemióloga y estoy trabajando en un estudio de seguimiento de pacientes con Covid19 con el grupo OHDSI (https://www.ohdsi.org/ohdsi-news-updates/covid19-studyathon-announcement/), el objetivo es hacer un modelo predictivo para identificar los pacientes más graves para que pueda servir en el momento de admisión hospitalaria para hacer el triage. El modelo usa datos individuales y quería preguntaros si hay fuentes de estos datos, con edad, sexo (y ojalá comorbilidades o uso de tabaco) para España. Los modelos serán públicos aquí en github en los próximos días.
Y felicidades por todo el trabajo y los datos que tenéis aqui, son muy relevantes, esperemos que ayuden en la investigación y esto se refleje en el área clínica pronto. Gracias

JJ commented 4 years ago

Bienvenida. Yo, desde luego, no lo he visto. Me consta que hay ciertos hospitales que tienen esos datos, pero un dataset anonimizado que los contenga, no lo hay que yo sepa.

jmarxuach commented 4 years ago

Hola a todos, Soy nueva en github, por eso disculpar si este no es el sitio para hacer la pregunta. Soy epidemióloga y estoy trabajando en un estudio de seguimiento de pacientes con Covid19 con el grupo OHDSI (https://www.ohdsi.org/ohdsi-news-updates/covid19-studyathon-announcement/), el objetivo es hacer un modelo predictivo para identificar los pacientes más graves para que pueda servir en el momento de admisión hospitalaria para hacer el triage. El modelo usa datos individuales y quería preguntaros si hay fuentes de estos datos, con edad, sexo (y ojalá comorbilidades o uso de tabaco) para España. Los modelos serán públicos aquí en github en los próximos días. Y felicidades por todo el trabajo y los datos que tenéis aqui, son muy relevantes, esperemos que ayuden en la investigación y esto se refleje en el área clínica pronto. Gracias

Puedes consultar los datos que ofrece Euskadi. https://opendata.euskadi.eus/w79-dataset/es/contenidos/ds_informes_estudios/covid_19_2020/es_def/index_es.html

Son mucho mas detallados que los que ofrece el Ministerio de Sanidad. Lo que no he visto son los datos por pacientes. Datos que yo también busco. También trabajo con algoritmos de predicción y hace dias que los estoy buscando sin exito.

JJ commented 4 years ago

El gobierno de las Canarias ha publicado datos agregados que dicen, por ejemplo, tiempo medio entre una cosa y otra, desagregado por edades. pero no individual.

adelgadob commented 4 years ago

@MarcelaEpi Hola, tienes algunos datos agregados en los informes del Instituto Carlos III https://www.isciii.es/QueHacemos/Servicios/VigilanciaSaludPublicaRENAVE/EnfermedadesTransmisibles/Paginas/InformesCOVID-19.aspx

jmarxuach commented 4 years ago

@MarcelaEpi Hola, tienes algunos datos agregados en los informes del Instituto Carlos III https://www.isciii.es/QueHacemos/Servicios/VigilanciaSaludPublicaRENAVE/EnfermedadesTransmisibles/Paginas/InformesCOVID-19.aspx

Son PDFs ! como no cuelgan formatos de datos !! Sino fuera por vosotros no tendriamos ni un dataset del ministerio de sanidad.

MarcelaEpi commented 4 years ago

Muchas gracias a todos por la información, miraré los links a ver si hay algo que podamos usar. Como alguno ha dicho que estaba interesado en estos datos también os comento que Corea del Sur ha hecho públicos los datos a través del HIRU hay que enviar un protocolo y códigos y ellos corren el análisis. Parece que Italia publicara tb los datos individuales anonimizados. Estaría bien que España y los demás países los publicaran también. Un saludo

irrelevante commented 4 years ago

Buenos días.

La tercera opción parece la más coherente.

¡Un saludo!

adelgadob commented 4 years ago

Hemos decidido habilitar la tercera opción. Desde hoy estará disponible el CSV normalizado del Instituto de Salud Carlos III en un csv independiente.

adelgadob commented 4 years ago

@JJ @ramiroaznar @numeroteca @4tikhonov y otros reutilizadores habituales. Nos gustaría saber vuestra opinión antes de proceder a realizar las siguientes tareas:

Después de analizar y escuchar a algunos de vosotros hemos tomado la decisión de limpiar la serie histórica de los datasets para añadir los datos corregidos por el ISCIII después de todos los cambios que ha habido estas semanas. La serie histórica de Sanidad contiene errores no corregidos que pensamos no deben seguir manteniéndose. Hemos estado analizando la diferencias de datos entre datasets (Por ejemplo, los datos de Cataluña ya corregidos por ISCIII en la serie histórica) y pensamos que es más correcto hacerlo en los datasets de fallecidos, recuperados, hospitalizados y UCI por CCAA.

Para nacional_covid19.csv el plan es el siguiente:

Para ccaa_covid19_casos.csv y su formato largo:

De esta manera tendremos 4 datasets para casos: -ccaa_covid19_confirmados_totales.csv ccaa_covid19_confirmados_prc.csv ccaa_covid19_confirmados_test.csv (* incluye asintomáticos) ccaa_covid19_confirmados_asintomaticos.csv

Otros: Renombrar ccaa_covid19_altas.csv y su formato largo a ccaa_covid19_recuperados.csv

¿Qué pensáis? ¿Hay alguna otra tarea que se nos haya escapado? ¡Gracias!

JJ commented 4 years ago

El sáb., 25 abr. 2020 a las 19:30, adelgadob (notifications@github.com) escribió:

@JJ https://github.com/JJ @ramiroaznar https://github.com/ramiroaznar @numeroteca https://github.com/numeroteca @4tikhonov https://github.com/4tikhonov y otros reutilizadores habituales. Nos gustaría saber vuestra opinión antes de proceder a realizar las siguientes tareas:

Después de analizar y escuchar a algunos de vosotros hemos tomado la decisión de limpiar la serie histórica de los datasets para añadir los datos corregidos por el ISCIII después de todos los cambios que ha habido estas semanas. La serie histórica de Sanidad contiene errores no corregidos que pensamos no deben seguir manteniéndose. Hemos estado analizando la diferencias de datos entre datasets (Por ejemplo, los datos de Cataluña ya corregidos por ISCIII en la serie histórica) y pensamos que es más correcto hacerlo en los datasets de fallecidos, recuperados, hospitalizados y UCI por CCAA.

Para nacional_covid19.csv el plan es el siguiente:

  • Eliminar las columnas UCI y Hospitalizados debidos a que aún no se pueden sumar ya que hay CCAA que siguen ofreciendo el dato de prevalencia.
  • Añadir una nueva columna con total de casos confirmados por PCR
  • La Columna TOTAL que sea la suman de test PCR+Test de anticuerpos.

Me parece correcto. Quizás deberías hacer un "release" con los datos tal como están antes del cambio, de forma que haya una forma fácil de descargarlos (en caso de que se busquen)

vieiro commented 4 years ago

Para hacer algún tipo de análisis epidemiológico creo que haría falta indicar el total de personas contagiosas, que sería hospitalizados + test PCR + tests anticuerpos (el total que proponéis).

Pero si una persona se hace un test PCR y otro de anticuerpos ¡habría contarla como uno, no como dos! Eso es lo que habría que averiguar de la maraña de datos que envían. No queda claro si las series de test PCR y test anticuerpos son disjuntas o no.

JJ commented 4 years ago

Sí, eso estaría bien... Y también que no cambiaran los criterios cada vez que les conviene. Pero no creo que suceda, la verdad. Inicialmente, se sumaban los dos tipos de tests, así que imagino que se contaría una vez cada uno, pero conociéndolos, a saber lo que hacían...

Lo que señalas de todas formas tiene algo de verdad: habrá personas contagiadas a las que no le hayan hecho ningún tipo de test sino simplemente un diagnóstico clínico. Pero no vamos a tener esos datos, así que pa qué.

dadosdelaplace commented 4 years ago

Si se accede al informe de sanidad pone que hoy hay 205905 casos confirmados por PCR. Ayer 202990. Hacemos la resta 205905 - 202990 = 2915. Sin embargo Sanidad (y vosotros en twitter) pone que hoy hay 2944 nuevos casos por PCR.

Estos 2915 cuadran si restamos los confirmados de aquí https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_casos_long.csv menos los tests rápidos https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_confirmados_test_long.csv

¿Por qué los datos de esas tablas no cuadran luego con los nuevos casos por PCR aportados por Sanidad?

Y de hecho la suma de los tests hechos en https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_datos_isciii.csv en la columa "TestAc." para el 2020-04-22 dan 15368, sin embargo en la tabla https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_confirmados_test_long.csv pone para ese día 12830

ya os lo comenté en un mail: tener tropecientos archivos, con la misma variable, y que dé cosas distintas, y a su vez distintas a los PDF de sanidad, hace inviable cualquier análisis :(

dadosdelaplace commented 4 years ago

Algo similar pasa con los PCR.

Si se usa https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_datos_isciii.csv en la columan "PCR.", los datos acumulados de PCR de los últimos días sale [197142, 200194, 202961, 205805]

Sin embargo en la tabla https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_confirmados_pcr_long.csv salen [188508, 191389, 202990, 205905]

Y peor: los casos de https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_casos_long.csv que se supone que pone que son PCR+TEST de los últimos días son [208389, 213024, 219764, 223759]

Dichos números son distintos de la suma de los datos de PCR de la tabla de https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_confirmados_pcr_long.csv más los datos de test de la tabla https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_confirmados_test_long.csv

Y tampoco coincide con la suma de las columnas "TESTAc." y "PCR." de https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_datos_isciii.csv

dadosdelaplace commented 4 years ago

Actualización:

Como decía, la suma de los datos de PCR de la tabla de https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_confirmados_pcr_long.csv más los datos de test de la tabla https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_confirmados_test_long.csv no coincide con los casos de https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_casos_long.csv que se supone que pone que son PCR+TEST

PERO

Si tomamos como datos de anticuerpos los de la tabla de test https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_confirmados_test_long.csv y como PCR (pasamos de la tabla PCR) la tabla conjunta PCR+TEST menos la tabla de test, la gráfica de barras que sale es la misma que Sanidad pone en sus PDF

Es triste tener que andar midiendo barritas en un pdf pero así estamos, parece ser, porque desde luego la tabla de PCR + la tabla de TEST no da el total de la conjunta. La tabla grande del ISCIII ya es que no cuadra absolutamente con nada vaya

adelgadob commented 4 years ago

@JavierAlvarezLiebana Los datos que nosotros normalizamos son los que ofrece Sanidad en sus tablas diarias. No realizamos ninguna operación o cálculo en los datos que publicamos en GitHub. Los presentamos tal cual vienen después de un proceso de extracción, limpieza y normalización (procesos ETL). Las divergencias en los datos entre los publicados cada día por Sanidad y la serie histórica que corrige el ISCIII es la base de este issue que hemos abierto donde hemos explicado lo que vamos a hacer. Le vuelvo a repetir por si no le ha quedado claro: Nosotros solo agregamos las tablas diarias. No hacemos ninguna operación de suma o resta o modificación a los datos de Sanidad ni los del ISCIII.

dadosdelaplace commented 4 years ago

Pues algo falla, @adelgadob. Los datos de Sanidad (visto desde los informes que subís de hecho) dicen que hoy hay 2944 nuevos casos PCR y ayer 2796. Las tabla de casos por PCR dicen que hoy 2915 y ayer, ojo, 11601.

No cuadra al tabla con lo presentado en el informe de Sanidad, no del ISCIII, hablo de sanidad vs tablas subidas (ya del ISCIII lo he dado por perdido)

Los datos cuadrarían tomando como datos PCR la resta de la tabla PCR+test menos la tbala de test (de hecho yo la tabla PCR la eliminaría directamente porque es redundante y causa confusión). Pero la tabla de casos PCR que hay actualmente en el repositorio no coincide con los datos de Sanidad. Si se hace la resta que comento, sí.

adelgadob commented 4 years ago

@JavierAlvarezLiebana Le vuelvo a repetir: NOSOTROS NO REALIZAMOS NINGUNA MODIFICACIÓN DE LOS DATOS PUBLICADOS POR SANIDAD NI POR EL ISCIII. Si lee todos los asteriscos del informe de Sanidad verá que hacen constantemente correcciones de los días anteriores. Por eso en algunos días no le cuadra si hace usted la resta vs los datos del día siguiente de Sanidad. Y no de por perdido el ISCIII porque es donde Sanidad realiza las correcciones de la serie histórica. De hecho, es el dataset de referencia para mantener la serie y es el origen de este issue. También le recomiendo que lea las notas que publica el ISCII en su dataset:

NOTA: El objetivo de los datos que se publican en esta web es saber el número de casos acumulados a la fecha y que por tanto no se puede deducir que la diferencia entre un día y el anterior es el número de casos nuevos ya que esos casos pueden haber sido recuperados de fechas anteriores. Cualquier inferencia que se haga sobre las diferencias de un día para otro deben hacerse con precaución y son únicamente la responsabilidad del autor. NOTA2:Se excluyen de la serie las notificaciones de personas  con anticuerpos positivos sin síntomas en el momento de realización de la prueba en los que no se puede establecer un momento de contagio ni si han padecido o no la enfermedad.

adelgadob commented 4 years ago

Para una mayor aclaración del issue que hemos abierto, os presentamos una tabla comparativa donde en color resaltado se encuentran las celdas que son comunes entre los datos de Sanidad y el ISCIII de las últimas semanas.

diferencias_Sanidad_ISCIII
dadosdelaplace commented 4 years ago

No sé si es que me explico fatal o ...en fin. Tampoco sé porque me grita.

Insisto: las tablas que hay a día de hoy, tanto del ISCIII como las que deberían ser de Sanidad, no cuadran ninguna de las dos, ninguna con los datos de los PDF de Sanidad. Ninguna. Ni la tabla grande del ISCIII ni la tabla PCR

En ese mismo excel que me enseña, antes de ayer habría habido 11601 (= 202990 - 191389) nuevos casos PCR. Y en el informe de Sanidad no dice eso, dice 2796. Les adjunto la foto. Me ha indicado arriba que son las de Sanidad, y le digo que no. Y me dice que sí, gritándome. Ok. Yo me rindo.

image

adelgadob commented 4 years ago

@JavierAlvarezLiebana Usted me habla como si yo fuera Sanidad o fuera el responsable de esas divergencias en los datos que gestiona el CCAES. Le vuelvo a repetir que la serie histórica de referencia es la que está corrigiendo ISCIII y es el origen de este issue.

Ah y ese problema que señala es debido a que Sanidad agregó entre un día y otro datos que las CCAA enviaron con retraso. Es una circunstancia que pedimos explicaciones a Sanidad y hemos anotado tanto en el Readme como en Twitter.

Captura de pantalla 2020-04-25 a las 23 56 13
JJ commented 4 years ago

El sáb., 25 abr. 2020 a las 23:38, Javier Álvarez Liébana (< notifications@github.com>) escribió:

No sé si es que me explico fatal o ...en fin. Tampoco sé porque me grita.

Insisto: las tablas que hay a día de hoy, tanto del ISCIII como las que deberían ser de Sanidad, no cuadran ninguna de las dos, ninguna con los datos de los PDF de Sanidad. Ninguna. Ni la tabla grande del ISCIII ni la tabla PCR

En ese mismo excel que me enseña, antes de ayer habría habido 11601 (= 202990 - 191389) nuevos casos PCR. Y en el informe de Sanidad no dice eso, dice 2796. Les adjunto la foto. Me ha indicado arriba que son las de Sanidad, y le digo que no. Y me dice que sí, gritándome. Ok. Yo me rindo.

Nadie le está gritando. Y ese PDF está en este repo. Sanidad corrige sus datos tras publicar los PDFs con cierta frecuencia. No hace falta que les adjuntes el PDF, porque ese PDF es el que ellos escrapean todos los días para sacar sus datos, los que gentilmente publican. Y no, los datos no coinciden con los PDFs porque, tras publicar los PDFs, a veces se corrigen las series y @adelgadob y la buena gente del @datadista se esfuerzan todo lo que pueden en corregir las series publicadas una vez hecho con datos obtenidos por otros medios (por ejemplo, datos fuera de rueda de prensa dados a periodistas). Antes de ayer, por cierto, hubo unos 6000 casos (PCR+anticuerpos), y así apareció en los datos que se publicaron aquí. Y este issue es sólo para dar nuestra opinión sobre cómo se tienen que publicar los datos a partir de ahora de forma que haya la mínima disrupción posible, no para comentar el caos que es ahora mismo toda la publicación de datos por parte del Ministerio. Sería conveniente que nos ciñéramos a ese tema y culpemos del caos a los responsables políticos, que son los que tienen la culpa.

numeroteca commented 4 years ago

Me parecen bien las propuestas, gracias por compartir.

Es justo el dilema que se me presentaba (y amuchos también, supongo) este fin de semana, si pasar de los PDF y su histórico y comenzar a usar los del ISCIII. Me parecen bien las propuesta de dar el valor de casos con la suma de los test PCR+ y Test de anticuerpos, es justo lo que he hecho yo, espero que sea lo correcto.

Es justo lo que he estado haciendo este fin de semana, actualizar mis scripts de R para usar directamente datos de ISCIII y aprovechar cada vez que corrijan los datos, este es el código para procesarlos: https://code.montera34.com/numeroteca/covid19/-/blob/master/analysis/process_spain_regions_data.R Reprocesa los datos y publica un dataset con código INE, nombre de CCAA, población, valores por 100.000 habitantes... El código tiene todavía la parte de cuando usaba los datos de este repo de datadista, pero los comentaré en breve. El resultado se publica en este CSV: https://code.montera34.com:4443/numeroteca/covid19/-/blob/master/data/output/covid19-cases-uci-deaths-by-ccaa-spain-by-day-accumulated_isciii.csv

Si es útil el script lo ofrezco para usarse donde sea. Es GPL.

Sobre el problema de hospitalizados y UCI, ya he visto que hoy Madrid ha vuelto a cambiar a acumulado. Propongo, si fuera posible, etiquetar cada dato en una columna para saber si es acumulado o del día, para poder hacer dos gráficos deferenciados para unos y otros. Pero no sé si merece la pena en vista de que va cambiando todo el tiempo.

adelgadob commented 4 years ago

@numeroteca Muchas gracias. Nosotros llevamos publicando el dataset de ISCIII desde el primer día aquí: https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_datos_isciii.csv

En el Readme tenemos una tabla con las fechas de cuando cambiaron de prevalencia a acumulado en esas dos series. Hoy hemos preguntado en la rueda de prensa a Fernando Simón y nos asegura que actualizarán la serie en Madrid con los datos de acumulado.

emiliop37 commented 4 years ago

Me parecen bien las propuestas, gracias por compartir.

Es justo el dilema que se me presentaba (y amuchos también, supongo) este fin de semana, si pasar de los PDF y su histórico y comenzar a usar los del ISCIII. Me parecen bien las propuesta de dar el valor de casos con la suma de los test PCR+ y Test de anticuerpos, es justo lo que he hecho yo, espero que sea lo correcto.

@numeroteca enlazando con la propuestas que están debatiendo en relación a los casos totales, existe algún mínimo consenso al respecto? Cuáles son las razones que justificarían que el número total de casos (sean nuevos o acumulados) sea la suma de positivos por PCR y por test de anticuerpos? Gracias de antemano por vuestra aclaración.

JJ commented 4 years ago

El jue., 30 abr. 2020 a las 16:06, emiliop37 (notifications@github.com) escribió:

Me parecen bien las propuestas, gracias por compartir.

Es justo el dilema que se me presentaba (y amuchos también, supongo) este fin de semana, si pasar de los PDF y su histórico y comenzar a usar los del ISCIII. Me parecen bien las propuesta de dar el valor de casos con la suma de los test PCR+ y Test de anticuerpos, es justo lo que he hecho yo, espero que sea lo correcto.

@numeroteca https://github.com/numeroteca enlazando con la propuestas que están debatiendo en relación a los casos totales, existe algún mínimo consenso al respecto? Cuáles son las razones que justificarían que el número total de casos (sean nuevos o acumulados) sea la suma de positivos por PCR y por test de anticuerpos?

¿Que ha sido así desde el principio y que no se debe cambiar la variable que se representa en una serie a mitad de camino?

Se puede dar la información total de muchas formas posibles, incluyendo simplemente decir cuales de los tests se han hecho de esa forma por si alguien, por alguna razón, quiere eliminarlos.

adelgadob commented 4 years ago

Sí, es por una cuestión de mantener la serie. El ISCIII ni siquiera ha corregido la serie, sino que ha incluido dos nuevas columnas con esos datos. Nosotros también vamos a incluir esos dos datos en nuevas columnas en el dataset nacional y ambas variables encuentra disponibles también en dos datasets.

adelgadob commented 4 years ago

Ya se han ha realizado todos los cambios previstos aunque no se ha cambiado el nombre de algunos archivos debido a que algunos reutilizadores nos han pedido mantenerlos. Existe una nueva carpeta denominada old_series donde están los archivos actualizado hasta ayer. Se irán corrigiendo las series regularmente conforme a los cambios marcados por el Ministerio de Sanidad y el ISCIII. Gracias a todos por las sugerencias.