Open augusto-herrmann opened 4 years ago
nos boletins de Alagoas, apenas confirmados e óbitos são detalhados por município, as informações de suspeitos, descartados e curados, são exibidas apenas de forma acumulada
ainda assim, acredito que vale a pena, preencheríamos apenas os registros do tipo state
No Ceará, não há dados de curados, contudo eles liberaram a base de dados: https://indicadores.integrasus.saude.ce.gov.br/api/casos-coronavirus/export-csv
Nela há uma coluna chamada "evolucaoCasoSivep" que é possível filtrar por curados. No entanto, para isso, é preciso ter o cuidado de realizar o filtro corretamente uma vez que há pacientes repetidos e com alguns dizendo curado em ao mesmo tempo, óbito. Tentei entrar em contato com o github deles (integrasus) para saber como realizar corretamente esses filtros mas ainda não obtive resposta: https://github.com/integrasus/api-covid-ce/issues/6
Aproveitando, citaria o número de hospitalizações também como recomendação (se possível).
Essas informações são muito importantes para diversos grupos de pesquisadores e jornalistas (exemplo).
Acho que já poderíamos iniciar logo a sua coleta para os estados que estão disponíveis e depois tratar caso a caso onde ainda não estão disponíveis ou ainda há dificuldades.
Aqui no Maranhão, os dados de recuperados estão sendo divulgados, mas em relatórios em PDF. Ainda não se tem nada em CSV ou ou outro lugar. Esperemos que comecem a liberar essa informação que é importantíssima.
Aqui no Maranhão, os dados de recuperados estão sendo divulgados, mas em relatórios em PDF. Ainda não se tem nada em CSV ou ou outro lugar. Esperemos que comecem a liberar essa informação que é importantíssima.
Kleber, eu conferi aqui o site do Maranhão e, aparentemente, eles estão divulgados os recuperados em um arquivo de Excel. Dentro do arquivo há um campo "recuperados".
@endersonmaia, será que já poderíamos incluir uma coluna nas planilhas que os voluntários preenchem para o número de recuperados? Daí, os estados que não tiverem a informação deixaríamos em branco.
E deixa a Open Knowledge Brasil continuar cobrando dos estados que não estão divulgando essa informação, já que as cobranças têm tido resultado.
@endersonmaia, será que já poderíamos incluir uma coluna nas planilhas que os voluntários preenchem para o número de recuperados? Daí, os estados que não tiverem a informação deixaríamos em branco.
como ficariam os dados históricos ?
pq com esse novo formato de envio dos dados, a gente manda UMA planilha para cada dia, assim teria que ser criada uma planilha para cada dia anterior ao início dessas coletas 🤔
temos que ver com berin e turicas sobre isso, se faríamos uma coleta geral dos dias anteriores, e daqui pra frente adicionaríamos a coluna na planilha
/cc @berinhard @turicas
@endersonmaia, será que já poderíamos incluir uma coluna nas planilhas que os voluntários preenchem para o número de recuperados? Daí, os estados que não tiverem a informação deixaríamos em branco.
como ficariam os dados históricos ?
pq com esse novo formato de envio dos dados, a gente manda UMA planilha para cada dia, assim teria que ser criada uma planilha para cada dia anterior ao início dessas coletas
temos que ver com berin e turicas sobre isso, se faríamos uma coleta geral dos dias anteriores, e daqui pra frente adicionaríamos a coluna na planilha
/cc @berinhard @turicas
Não seria melhor uma planiha única com todos os estados que resumisse o quantitativo de recuperados, óbitos e confirmados ?
Para o Ceará, já é possível fazer essa análise uma vez que eles disponibilizam os microdados e tirei algumas dúvidas aqui com eles de como filtrar as informações de curados, hospitalizados, etc. O maior problema que encontrei é que nem sempre há a data de recuperação do paciente, mas isso pode ser substituído por outras informações que há na base de dados cearense como "data de saída da UTI", dentre outras datas disponíveis.
Para extração dos recuperados no Ceará: EDIT: Somente um rascunho, é preciso avaliar melhor os filtros pois os dados estão bem desorganizados
import pandas as pd
# Mostrar todas colunas
pd.set_option('display.max_columns', None)
# Microdados
df = pd.read_csv('https://indicadores.integrasus.saude.ce.gov.br/api/casos-coronavirus/export-csv', encoding='latin-1')
#### Internações por SRAG ####
# Se tem idSivep indica que foi internado em um hospital público ou particular
SRAG = df[df['idSivep'].isnull()==False]
total_internacoes = SRAG.drop_duplicates(subset ="codigoPaciente", keep = 'first')
print('Total de internações nos hospitais públicos e privados do Ceará: {}'.format(len(total_internacoes)))
# Dos internados filtrar evolucao = 'Cura' e tirar possíveis erros de óbito
SRAG_curados = SRAG[(SRAG['evolucaoCasoSivep']=='Cura') & (SRAG['obitoConfirmado']!=True)]
# Removendo duplicações de pacientes
SRAG_curados_unique = SRAG_curados.drop_duplicates(subset ="codigoPaciente", keep = 'first')
SRAG_curados_unique
print('Há {} curados que tiveram internação por SRAG'.format(len(SRAG_curados_unique)))
#### COVID-19 Confirmado ####
# SRAG que tiveram o exame de COVID-19 confirmado
COVID_recuperados = SRAG_curados[SRAG_curados['resultadoFinalExame']=='Positivo']
# Remover possíveis duplicações de pacientes
COVID_recuperados = COVID_recuperados.drop_duplicates(subset ="codigoPaciente", keep = 'first')
print('Há {} curados que tiveram internação por COVID-19 confirmada'.format(len(COVID_recuperados)))
nos boletins de Alagoas, apenas confirmados e óbitos são detalhados por município, as informações de suspeitos, descartados e curados, são exibidas apenas de forma acumulada
ainda assim, acredito que vale a pena, preencheríamos apenas os registros do tipo
state
Alagoas, e outros estados, já estão disponibilizando microdados, daria para pegar essa informação
no caso de AL, acredito que dá pra utilizar {"Alta Hospitalar", "Encerramento do Isolamento Domiciliar"}
como Curado
Aqui no Maranhão, os dados de recuperados estão sendo divulgados, mas em relatórios em PDF. Ainda não se tem nada em CSV ou ou outro lugar. Esperemos que comecem a liberar essa informação que é importantíssima.
Kleber, eu conferi aqui o site do Maranhão e, aparentemente, eles estão divulgados os recuperados em um arquivo de Excel. Dentro do arquivo há um campo "recuperados".
Realmente, eu vi aqui os boletins em Excel... e são bem toscos, por sinal. Se pegarmos o modelo das primeiras planilhas, são bem diferentes das atuais e a de ontem, já mudou, por exemplo, a célula onde o total de recuperados existe... como pegar informações de planilhas assim? Bem complicado... Tem várias outras informações importantes, mas não tem confiabilidade para criar uma rotina de leitura dessas planilhas e pegar os dados corretamente.
como ficariam os dados históricos ?
pq com esse novo formato de envio dos dados, a gente manda UMA planilha para cada dia, assim teria que ser criada uma planilha para cada dia anterior ao início dessas coletas :thinking:
temos que ver com berin e turicas sobre isso, se faríamos uma coleta geral dos dias anteriores, e daqui pra frente adicionaríamos a coluna na planilha
Não vejo problema em iniciarmos a coleta em uma determinada data, e na tabela ficar em branco para as datas anteriores. Coloca-se nos metadados a observação de que os dados passaram a ser coletados apenas a partir de determinada data, e pronto.
como ficariam os dados históricos ? pq com esse novo formato de envio dos dados, a gente manda UMA planilha para cada dia, assim teria que ser criada uma planilha para cada dia anterior ao início dessas coletas 🤔 temos que ver com berin e turicas sobre isso, se faríamos uma coleta geral dos dias anteriores, e daqui pra frente adicionaríamos a coluna na planilha
Não vejo problema em iniciarmos a coleta em uma determinada data, e na tabela ficar em branco para as datas anteriores. Coloca-se nos metadados a observação de que os dados passaram a ser coletados apenas a partir de determinada data, e pronto.
penso que seria possível adicionar uma nova coluna na planilha modelo, e considerando que estes dados existirão apenas no TOTAL NO ESTADO
, as linhas dos municípios seguiriam sem preenchimento, como no ex. a seguir :
municipio,confirmados,mortes,recuperados
TOTAL NO ESTADO,1000,10,500
Importados/Indefinidos,10,1,
Água Branca,10,1,
Anadia,11,2,
Arapiraca,7,3,
Atalaia,1,0,
...
inclusive sugeri algo parecido para os dados de testados
na issue #147
Alguns boletins das Secretarias de Estado de Saúde (ex.: DF) já estão incluindo o número de recuperados da Covid-19. Podemos já incluir esses números na coleta de dados, no dataset do Brasil.io e no esquema do CSV?