montera34 / escovid19data

Recopilación de datos de COVID19 por provincias en España
Other
81 stars 23 forks source link

La Rioja: ¿debemos tomar los datos de la actualización de Sanidad? #16

Open pirio72 opened 3 years ago

pirio72 commented 3 years ago

Problema

La información oficial de Coronavirus del Gobierno de La Rioja apenas da acumulados (a 2020-10-08) de:

Los dos primeros podrían servir (descontando del anterior día), pero no los dos últimos.

El sitio también da información desglosada sobre datos por municipios y otros detalles, pero no para todos los municipios (solo para los mayores de una población). Y además, no actualiza sus datos con frecuencia regular.

Por eso, se han estado tomando datos, desde mediados de agosto, del periódico La Rioja.com, pero resulta muy pesado encontrar la información.

Una alternativa: los informes del Ministerio de Sanidad

La posible alternativa sería tomar los datos directamente del informe diario del Ministerio de Sanidad, si bien lleve algo de retraso: por ejemplo, para los datos del 2020-10-07, hay que encontrar los datos en el informe del 2020-10-08.

Comparando los datos que tenemos para el 2020-10-07 con los del informe de Sanidad, tenemos: (se dan los datos del Ministerio de Sanidad, y se comparan con los que hemos obtenido):

Argumentos a favor

  1. Sanidad sí mantiene activas todas las actualizaciones: desde el 2020-03-10 https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Actualizacion_40_COVID-19.pdf (2020-03-10) hasta el 2020-10-12 (https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Actualizacion_226_COVID-19.pdf)

    • Solo hay que ir cambiando la numeración para acceder a los ficheros.
  2. La estructura es bastante similar en los últimos meses. Aunque se trata de un documento PDF, sería posible plantear escrapearlo para extraer los datos (de manera similar a cómo se obtienen los datos del documento que publica la Comunidad de Madrid)

  3. Aunque la información tendría un retraso de unas 18 horas, es mucho más asumible que usar, como hasta ahora, dos fuentes distintas, una de ellas, bastante dispersa (noticias de un periódico con formato muy distinto).

  4. Como mínimo, tendríamos la misma información que teníamos hasta ahora. Es posible que tengamos más.

Argumentos en contra

El Ministerio de Sanidad no actualiza en fines de semana, mientras que sí hemos dispuesto de datos en sábado y domingo, hasta ahora.

Propuesta

  1. Crear un script para escrapear la página diaria de Sanidad y extraer los contenidos de La Rioja
  2. O en su defecto, obtener los documentos de forma manual de la actualización diaria de Sanidad (teniendo en cuenta que los datos son siempre relativos al día anterior).