turicas / covid19-br

Dados diários mais recentes do coronavírus por município brasileiro
https://brasil.io/dataset/covid19
GNU Lesser General Public License v3.0
530 stars 128 forks source link

Incluir nos dados o número de recuperados #94

Open augusto-herrmann opened 4 years ago

augusto-herrmann commented 4 years ago

Alguns boletins das Secretarias de Estado de Saúde (ex.: DF) já estão incluindo o número de recuperados da Covid-19. Podemos já incluir esses números na coleta de dados, no dataset do Brasil.io e no esquema do CSV?

endersonmaia commented 4 years ago

nos boletins de Alagoas, apenas confirmados e óbitos são detalhados por município, as informações de suspeitos, descartados e curados, são exibidas apenas de forma acumulada

ainda assim, acredito que vale a pena, preencheríamos apenas os registros do tipo state

luiseduardobr1 commented 4 years ago

No Ceará, não há dados de curados, contudo eles liberaram a base de dados: https://indicadores.integrasus.saude.ce.gov.br/api/casos-coronavirus/export-csv

Nela há uma coluna chamada "evolucaoCasoSivep" que é possível filtrar por curados. No entanto, para isso, é preciso ter o cuidado de realizar o filtro corretamente uma vez que há pacientes repetidos e com alguns dizendo curado em ao mesmo tempo, óbito. Tentei entrar em contato com o github deles (integrasus) para saber como realizar corretamente esses filtros mas ainda não obtive resposta: https://github.com/integrasus/api-covid-ce/issues/6

Aproveitando, citaria o número de hospitalizações também como recomendação (se possível).

augusto-herrmann commented 4 years ago

Essas informações são muito importantes para diversos grupos de pesquisadores e jornalistas (exemplo).

Acho que já poderíamos iniciar logo a sua coleta para os estados que estão disponíveis e depois tratar caso a caso onde ainda não estão disponíveis ou ainda há dificuldades.

kleyber-ribeiro commented 4 years ago

Aqui no Maranhão, os dados de recuperados estão sendo divulgados, mas em relatórios em PDF. Ainda não se tem nada em CSV ou ou outro lugar. Esperemos que comecem a liberar essa informação que é importantíssima.

luiseduardobr1 commented 4 years ago

Aqui no Maranhão, os dados de recuperados estão sendo divulgados, mas em relatórios em PDF. Ainda não se tem nada em CSV ou ou outro lugar. Esperemos que comecem a liberar essa informação que é importantíssima.

Kleber, eu conferi aqui o site do Maranhão e, aparentemente, eles estão divulgados os recuperados em um arquivo de Excel. Dentro do arquivo há um campo "recuperados".

augusto-herrmann commented 4 years ago

@endersonmaia, será que já poderíamos incluir uma coluna nas planilhas que os voluntários preenchem para o número de recuperados? Daí, os estados que não tiverem a informação deixaríamos em branco.

E deixa a Open Knowledge Brasil continuar cobrando dos estados que não estão divulgando essa informação, já que as cobranças têm tido resultado.

endersonmaia commented 4 years ago

@endersonmaia, será que já poderíamos incluir uma coluna nas planilhas que os voluntários preenchem para o número de recuperados? Daí, os estados que não tiverem a informação deixaríamos em branco.

como ficariam os dados históricos ?

pq com esse novo formato de envio dos dados, a gente manda UMA planilha para cada dia, assim teria que ser criada uma planilha para cada dia anterior ao início dessas coletas 🤔

temos que ver com berin e turicas sobre isso, se faríamos uma coleta geral dos dias anteriores, e daqui pra frente adicionaríamos a coluna na planilha

/cc @berinhard @turicas

luiseduardobr1 commented 4 years ago

@endersonmaia, será que já poderíamos incluir uma coluna nas planilhas que os voluntários preenchem para o número de recuperados? Daí, os estados que não tiverem a informação deixaríamos em branco.

como ficariam os dados históricos ?

pq com esse novo formato de envio dos dados, a gente manda UMA planilha para cada dia, assim teria que ser criada uma planilha para cada dia anterior ao início dessas coletas

temos que ver com berin e turicas sobre isso, se faríamos uma coleta geral dos dias anteriores, e daqui pra frente adicionaríamos a coluna na planilha

/cc @berinhard @turicas

Não seria melhor uma planiha única com todos os estados que resumisse o quantitativo de recuperados, óbitos e confirmados ?

Para o Ceará, já é possível fazer essa análise uma vez que eles disponibilizam os microdados e tirei algumas dúvidas aqui com eles de como filtrar as informações de curados, hospitalizados, etc. O maior problema que encontrei é que nem sempre há a data de recuperação do paciente, mas isso pode ser substituído por outras informações que há na base de dados cearense como "data de saída da UTI", dentre outras datas disponíveis.

Para extração dos recuperados no Ceará: EDIT: Somente um rascunho, é preciso avaliar melhor os filtros pois os dados estão bem desorganizados

import pandas as pd

# Mostrar todas colunas
pd.set_option('display.max_columns', None)

# Microdados
df = pd.read_csv('https://indicadores.integrasus.saude.ce.gov.br/api/casos-coronavirus/export-csv', encoding='latin-1')

#### Internações por SRAG ####
# Se tem idSivep indica que foi internado em um hospital público ou particular
SRAG = df[df['idSivep'].isnull()==False]
total_internacoes = SRAG.drop_duplicates(subset ="codigoPaciente", keep = 'first') 
print('Total de internações nos hospitais públicos e privados do Ceará: {}'.format(len(total_internacoes)))

# Dos internados filtrar evolucao = 'Cura' e tirar possíveis erros de óbito
SRAG_curados = SRAG[(SRAG['evolucaoCasoSivep']=='Cura') & (SRAG['obitoConfirmado']!=True)]

# Removendo duplicações de pacientes
SRAG_curados_unique = SRAG_curados.drop_duplicates(subset ="codigoPaciente", keep = 'first') 
SRAG_curados_unique
print('Há {} curados que tiveram internação por SRAG'.format(len(SRAG_curados_unique)))

#### COVID-19 Confirmado ####
# SRAG que tiveram o exame de COVID-19 confirmado
COVID_recuperados = SRAG_curados[SRAG_curados['resultadoFinalExame']=='Positivo']

# Remover possíveis duplicações de pacientes
COVID_recuperados = COVID_recuperados.drop_duplicates(subset ="codigoPaciente", keep = 'first') 
print('Há {} curados que tiveram internação por COVID-19 confirmada'.format(len(COVID_recuperados)))
endersonmaia commented 4 years ago

nos boletins de Alagoas, apenas confirmados e óbitos são detalhados por município, as informações de suspeitos, descartados e curados, são exibidas apenas de forma acumulada

ainda assim, acredito que vale a pena, preencheríamos apenas os registros do tipo state

Alagoas, e outros estados, já estão disponibilizando microdados, daria para pegar essa informação

no caso de AL, acredito que dá pra utilizar {"Alta Hospitalar", "Encerramento do Isolamento Domiciliar"} como Curado

kleyber-ribeiro commented 4 years ago

Aqui no Maranhão, os dados de recuperados estão sendo divulgados, mas em relatórios em PDF. Ainda não se tem nada em CSV ou ou outro lugar. Esperemos que comecem a liberar essa informação que é importantíssima.

Kleber, eu conferi aqui o site do Maranhão e, aparentemente, eles estão divulgados os recuperados em um arquivo de Excel. Dentro do arquivo há um campo "recuperados".

Realmente, eu vi aqui os boletins em Excel... e são bem toscos, por sinal. Se pegarmos o modelo das primeiras planilhas, são bem diferentes das atuais e a de ontem, já mudou, por exemplo, a célula onde o total de recuperados existe... como pegar informações de planilhas assim? Bem complicado... Tem várias outras informações importantes, mas não tem confiabilidade para criar uma rotina de leitura dessas planilhas e pegar os dados corretamente.

augusto-herrmann commented 4 years ago

como ficariam os dados históricos ?

pq com esse novo formato de envio dos dados, a gente manda UMA planilha para cada dia, assim teria que ser criada uma planilha para cada dia anterior ao início dessas coletas :thinking:

temos que ver com berin e turicas sobre isso, se faríamos uma coleta geral dos dias anteriores, e daqui pra frente adicionaríamos a coluna na planilha

Não vejo problema em iniciarmos a coleta em uma determinada data, e na tabela ficar em branco para as datas anteriores. Coloca-se nos metadados a observação de que os dados passaram a ser coletados apenas a partir de determinada data, e pronto.

endersonmaia commented 4 years ago

como ficariam os dados históricos ? pq com esse novo formato de envio dos dados, a gente manda UMA planilha para cada dia, assim teria que ser criada uma planilha para cada dia anterior ao início dessas coletas 🤔 temos que ver com berin e turicas sobre isso, se faríamos uma coleta geral dos dias anteriores, e daqui pra frente adicionaríamos a coluna na planilha

Não vejo problema em iniciarmos a coleta em uma determinada data, e na tabela ficar em branco para as datas anteriores. Coloca-se nos metadados a observação de que os dados passaram a ser coletados apenas a partir de determinada data, e pronto.

penso que seria possível adicionar uma nova coluna na planilha modelo, e considerando que estes dados existirão apenas no TOTAL NO ESTADO, as linhas dos municípios seguiriam sem preenchimento, como no ex. a seguir :

municipio,confirmados,mortes,recuperados
TOTAL NO ESTADO,1000,10,500
Importados/Indefinidos,10,1,
Água Branca,10,1,
Anadia,11,2,
Arapiraca,7,3,
Atalaia,1,0,
...

inclusive sugeri algo parecido para os dados de testados na issue #147