dssg-pt / covid19pt-data

😷️🇵🇹 Dados relativos à pandemia COVID-19 em Portugal
GNU General Public License v3.0
446 stars 183 forks source link

Dados oficiais do número básico R0 e efectivo Rt, de reprodução em Portugal #116

Closed EDKLINDEMANN closed 4 years ago

EDKLINDEMANN commented 4 years ago

Boas a todos Primeiramente queria agradecer o vosso trabalho, voluntário e vocacionado para a total divulgação dos dados pertinentes a esta pandemia que nos assola. Senhores e Senhoras, estimados colegas, tenho trabalhado arduamente n cálculo de R0 e Rt. Os meus valores, já revistos, não batem de alguma forma, nem com a distribuição de Poisson ou normal. Contudo, no caso alemão, pelo Robert Koch Insititute (RKI), consegui obter os valores oficiais do Bundesministerium für Gesundheit, que anexo aqui. https://opendata.arcgis.com/datasets/dd4580c810204019a7b8eb3e0b329dd6_0.csv https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Projekte_RKI/R-Beispielrechnung.html https://corona.stat.uni-muenchen.de/nowcast/ R-Beispielrechnung.xlsx

RKI_COVID19-06.05.2020.xlsx

Existe alguma base de dados oficial para Portugal?

Obrigado pela atenção.

Ed K Lindemann

paulomaia20 commented 4 years ago

Olá Ed,

Obrigado pela mensagem!

Não estamos a par de qualquer fonte oficial em que seja apresentado o cálculo do R0/Rt dado pelo Governo Português. Se alguém souber onde são apresentados esses dados diariamente, podemos pensar em inclui-los de forma a que as pessoas possam fazer a comparação com os seus próprios métodos (e até eventualmente alguma engenharia reversa do método usado para calcular, que penso que não é público)

EDKLINDEMANN commented 4 years ago

Viva novamente Paulo

Acham viável fazer OCR à imagem da página 4 do documento do PM de 30/04? https://www.portugal.gov.pt/download-ficheiros/ficheiro.aspx?v=145dfa9e-1f15-418c-9295-6388d7d5faff

paulomaia20 commented 4 years ago

Acho que não é muito fácil, na medida que os valores seriam apenas aproximados e a atualização não é feita diariamente. O ideal seria ter uma fonte que indicasse esse valor todos os dias!

davipt commented 4 years ago

O valor do Rx é a representação de quantos casos positivos novos baseado nos casos anteriores, não dos valores públicos, mas da informação de cada caso. Isso é informação confidencial. É a mesma informação quando reportam que 30% são de lares e 7% de contactos sociais. O máximo que temos são os valores reportados à hora de almoço, e só parte deles, e só de vez em quando.

EDKLINDEMANN commented 4 years ago

Estimado Bruno, tenho que esclarecer: Rx não é uma unidade existente em modelos epidemiológicos. Rt ou Re são aceitáveis e reflectem o número efectivo de reprodução, pelo que cito a sua correcta definição: É o número médio (Calculado por um número de dias) de infeções secundárias causadas por um indivíduo infeccioso num dado ponto na progressão do surto. Qualquer indivíduo de qualquer faixa etária ou qualquer demografia social interfere neste número. Logo, longe de estar relacionado com o caso de lares ou de meros contactos sociais. São todos os contactos sociais, democraticamente. Adicionalmente no discurso do PM a 30/04, os dados foram publicados, pelo que discordo totalmente dessa opinião e os dados que possuis são os que todos os cidadãos portugueses possuem, pelo que cito as seguintes fontes: Plano de Desconfinamento - https://www.portugal.gov.pt/pt/gc22/comunicacao/documento?i=plano-de-desconfinamento

E também no dia 07/05, no Programa de Estabilidade e Programa Nacional de Reformas 2020: https://www.portugal.gov.pt/download-ficheiros/ficheiro.aspx?v=87e53cc7-0b91-40b8-aa9b-32153c7a80aa

Penso que o governo ainda seja soberano da DGS, logo estas fontes são fiáveis. Pelo que vejo no máximo que seja reportado, ainda temos um longo caminho a prosseguir e não me parece a atitude correcta a tomar, ignorando este indicador deveras importante. Agora, acredito que não tenham rotina automáticas de os obterem, pois claro, daí vem já as diopetrias que tenho nos meus óculos para ver bem :) Abraço e vejam por favor o assunto. Se caso o pretenderem, fecharei este "issue", pois ando a "digitize" por OCR, medição, calibração de eixos (x,y) de imagem e reconhecimento "não facial", mas sim de padrão de comportamento atendendo a cores das linhas e afins, incluindo sempre a devida margem de confiança de 95 %. Bom trabalho!

davipt commented 4 years ago

Erro meu, claro que queria dizer Rt. O que quiz dizer foi que a informação de que uma pessoa específica deverá ter infectado X outras pessoas é informação privada que as entidades tem acesso mas o público não. Quando fazem o tracing para perceber onde a pessoa acha que foi infectada, e com quem esteve, e esse grupo é testado, é daqui que podem calcular o Rx, mas também as percentagens de infeção por tipo lar ou casa ou social.

Não impede tentar colectar os valores conforme sejam reportados, sejam nesses documentos, seja verbalmente diariamente.

O meu ponto foi só que não é possível calcular esses valores usando apenas a informação disponível. Leia o comentário acima do meu.

EDKLINDEMANN commented 4 years ago

Infelizmente a DGS não reporta esses valores de forma alguma. Não, não é fácil. Todos nós a tentar modelar esta epidemia temos nos socorrido de modelos homogéneos que, a certo ponto, poderá ser erróneo. Bom, neste momento estou a avaliar a diferença nos meus valores obtidos com os da DGS. Agora a parte engraçada: É tão possível usar os vossos dados que tenho usado o data.csv, diariamente para estimar o Rt :) - o código é do CMMID, usando o Epiestim em R, e fiz um tweak delicioso ao já apresentado pelo André Peralta, aplicando o BEAR mode e ainda, o Statistics Toolbox do Matlab, com Flambertw.

https://github.com/wpgp/BEARmod https://github.com/aperaltasantos/covid_pt https://edklindemann.github.io/RPT_COVID19/#Modula%C3%A7%C3%A3o_Epidemiol%C3%B3gica

Nesse sentido leia (leiam) os seguintes artigos e por favor comentem à vontade: Primeira dever-se-á entender os modelos homogéneos SIR (SEIR).

https://staff.math.su.se/hoehle/blog/2020/04/15/effectiveR0.html https://epiforecasts.io/covid/posts/national/portugal/

e a cereja no topo do bolo: https://raw.githubusercontent.com/epiforecasts/covid-global/master/national-summary/rt.csv

O problema, daí o inicio da issue, é que os meus valores não coincidem com a DGS, os valores da Epiforecast não batem com os da DGS, aliás ainda não vi um modelo "spot on" no gráfico da DGS. O segredo não está em saber os dados relativos aos pacientes, mas sim o Lambda, ou designado por g minúsculo por outros autores, ou seja, a "força" da doença: (Artigo só para referência) https://www.nature.com/articles/s41591-020-0883-7

No final, estou convicto que a informação que possui é suficiente.

EDKLINDEMANN commented 4 years ago

Na ausência de informação oficial de forma tabular segue mais um documento em que reflecte o Rt na República Portuguesa. https://www.portugal.gov.pt/download-ficheiros/ficheiro.aspx?v=b8560501-45e9-4421-b20a-927b6d65e964

Se não se opuserem, irei fechar este issue, uma vez que não vemos abertura governamental para disponibilizar estes dados de forma tabular.

Obrigado pela atenção.

bordalix commented 4 years ago

Olá, se me permitem a intrusão:

No meu dashboard estou a usar gráficos gerados pelo Tiago Charters Azevedo para o Rt.

Não tenho nenhuma fonte automatizada, infelizmente. Os últimos foram colocados à mão porque os encontrei na conta do twitter do Tiago.

Todos os outros gráficos são gerados automaticamente assim que os dados são actualizados neste repositório. Obrigado pelo vosso trabalho.

EDKLINDEMANN commented 4 years ago

Boas, é uma boa opção, tudo depende de quem decide: Portanto:

  1. Poder-se-á usar o código do TCA (que usa o data.csv do DSSG) que demonstra o cálculo em Octave, baseado num notebook em py.

Tiago Charters de Azevedo.zip Fonte: https://nexp.pt/ddr/index.html Notebook de base: https://github.com/k-sys/covid-19/blob/master/Realtime%20R0.ipynb

  1. Conforme anunciado, o DSSG também forneceu o data.csv ao site Inisghts Cotec: https://insights.cotec.pt/index.php/component/sppagebuilder/?view=page&id=65 E lá também tem uma fonte tabular dos valores de Rt. se clicarem com o botão direito na imagem, poderão ver a versão tabular.

Bom trabalho!

Aguardo algum feedbck.. Obrigado

EDKLINDEMANN commented 4 years ago

Ora viva novamente. Para finalizar este issue, foi possível replicar com precisão a 6 casas decimais o gráfico apresentado em 15.05.2020. Dessa forma, os documentos apresentados no site https://www.portugal.gov.pt/, serão os oficiais, uma vez que são públicos e de fonte reconhecida. Todos os outros valores de Rt são passíveis de serem credíveis, contudo uso o meu próprio modelo epidemiológico. Estamos em fase de pre-prints, pré-análises e todos os modelos que revi a nível internacional, RKI - Alemanha, FHI - Noruega, FHM - Suécia, não apresentam os métodos de cálculo, e os 3 sem excepção demonstram conforme foi calculado. Uso o método Wallinga-Teunis através dos intervalos definidos por Nishiura. O INSA ou DGS, ou o MAI usam métodos não ainda clarificados. Dessa forma convido no fecho deste issue, a visitarem o meu "pseudo" """"dashboard"""", uma vez que só possui verdadeiramente os parâmetros relevantes para a minha análise diária. https://edklindemann.github.io/statsepi/

Irei evoluir o meu modelo para divergências populacionais heterogéneas, incluindo a taxa de hospitalização, e os vectores de movimento disponibilizados pelo Google e pela Apple e (da futura app do INESC(???), a menos que fique claro o modelo usado pelas entidades públicas de saúde. Assim vejam codificado propriamente em plotly o gráfico de 15.05.2020: newplot

Screenshot 2020-05-22 at 22 35 40

https://edklindemann.github.io/statsepi/#15052020_DGS

EDKLINDEMANN commented 4 years ago

O INSA revelou o método de cálculo: http://www.insa.min-saude.pt/category/areas-de-atuacao/epidemiologia/covid-19-curva-epidemica-e-parametros-de-transmissibilidade/

SW: Epiestim, pacore de R / Epiestim (Excel) Bibliografia: Antunes L.; Wallinga (Teunis), Cal Ferguson, Zhanwei Du,

Stat: The mean interval was 3.96 days(95% CI 3.53–4.39 days), SD 4.75 days (95% CI 4.46– 5.07 days).

Conforme prometido, estão lá os valores em formato excel, e seria valioso inserir os 3 campos de Rt - Nacional : lower,mean,upper com CI a 95%. Adicionalmente os valores de ARS Norte, Centro e LVT.

Obrigado

matosdotnet commented 4 years ago

Boa tarde a todos,

Estes dados são importantes. Só e pena não serem actualizados diariamente. O último registo é de 31-05-2020.

Abraço

EDKLINDEMANN commented 4 years ago

Viva @matosdotnet não é possível serem actualizados diariamente.

Conforme referem, pelo método aplicado, necessitam de uma janela temporal de uma semana, ou seja (W - 1). Mas foi uma luta que durou desde Marco até agora conseguir que revelassem finalmente e em concreto este dado.

É compreensível no início de uma pandemia haver muito ruído no desvio padrão e os verdadeiros do modelo epidemiológico sejam difíceis de interpretar.

Agora torna-se vital para controlo da pandemia, principalmente para quem esteja em LVT ou a nível nacional. De notar que o número de caso só se reflecte após o tempo de incubacão (7-14 dias), enquanto poderemos prever pela tendência do número efectivo de reproducão o que poderá acontecer com maior precisão e com uma janela de tempo inferior.

ishouldbedany commented 4 years ago

@davipt @bordalix @matosdotnet @EDKLINDEMANN Uma opinião que a equipa da DSSG PT pede: vamos obviamente linkar para estes dados no repositório, mas acham que faria sentido também incluí-los directamente no repositório? A grande vantagem seria obviamente a centralização; por outro lado estes dados já vêm bastantes limpos e processáveis, pelo que ao sermos meramente uma torre de re-transmissão não acrescentaríamos muito valor.

O que acham? Obrigado!

EDKLINDEMANN commented 4 years ago

Nada a acrescentar, para além de ser o dado epidemilógico mais importante de todos. E para finalizar, porque pensei ser útil, assumir que vocês são uma torre de retransmissão é insultuoso para o vosso trabalho. E ademais, existem mais fontes de COVID-19 em Portugal. Sobre este assunto é mesmo o último comentário estou até arrependido em ter insistido. Queiram por favor fechar este issue em 24 horas por favor. Continuem o bom trabalho gente!!

bordalix commented 4 years ago

Eu acho que faz sentido vocês mastigarem o Excel e incluírem no repositório os dados em formato aberto. Assim não seriam uma mera torre de retransmissão, o valor adicionado é imenso.

Obrigado pelo vosso trabalho.

EDKLINDEMANN commented 4 years ago

Terceiro relatório de 11/06 disponibilizado hoje.

EDKLINDEMANN commented 4 years ago

Dados Visuais do INSA disponibilizados em: https://edklindemann.github.io/epidpt/#INSA

EDKLINDEMANN commented 4 years ago

INSA-Portugal, iSCIII - Espanha, RKI - Alemanha, AGES - Áustria, 4 países em visualizacao disponível! RIVM - Holanda (WIP)

EDKLINDEMANN commented 4 years ago

Quarto relatório de 18/06 disponibilizado hoje.

http://www.insa.min-saude.pt/category/areas-de-atuacao/epidemiologia/covid-19-curva-epidemica-e-parametros-de-transmissibilidade/ http://www.insa.min-saude.pt/wp-content/uploads/2020/06/Report_covid19_18_06_2020.pdf http://www.insa.min-saude.pt/wp-content/uploads/2020/06/Rt_nacional.xlsx http://www.insa.min-saude.pt/wp-content/uploads/2020/06/Rt_norte.xlsx http://www.insa.min-saude.pt/wp-content/uploads/2020/06/Rt_centro.xlsx http://www.insa.min-saude.pt/wp-content/uploads/2020/06/Rt_lvt.xlsx

EDKLINDEMANN commented 4 years ago

WIP (Visualizacões de Portugal, Espanha, Alemanha e Áustria concluídas. Ainda por actualizar com novos dados de INSA, ISCIII, RKI e AGES, respectivamente.

  1. A Adicionar traducões em Inglês e análise específica do Rt em Portugal.
  2. A Adicionar países: Holanda (RIVM), Noruega (FHI-NIPH), Suécia (FHM), Dinamarca (SSI), Canadá (PHAOC), Suiça (SNCS-TF)
  3. A descobrir a sistematização de dados de: França (SPF), Itália (ISS,CDS)
  4. A pesquisar as fontes de dados do Rt nos 17 países que não reabriram as fronteiras a Portugal, por exemplo a Grécia (A Dinamarca já possuo os gráficos).
Screenshot 2020-05-29 at 21 14 48 Screenshot 2020-05-29 at 16 41 58 Screenshot 2020-06-20 at 09 49 22

CANADA

Screenshot 2020-06-20 at 10 33 22

https://edklindemann.github.io/World_Rt/

EDKLINDEMANN commented 4 years ago

Quinto relatório de 26/06 disponibilizado hoje. Além da evolução a nível nacional, são também apresentadas estimativas para as regiões com mais casos reportados. São ainda disponibilizados dados nacionais e regionais sobre o R(t) desde o dia 23-02-2020 (05-03-2020 Algarve; 16-03-2020 Alentejo) até 23-06-2020. Issue fechado..... https://edklindemann.github.io/World_Rt/