turicas / covid19-br

Dados diários mais recentes do coronavírus por município brasileiro
https://brasil.io/dataset/covid19
GNU Lesser General Public License v3.0
531 stars 128 forks source link

PR #1

Closed turicas closed 4 years ago

turicas commented 4 years ago

Boletins:

Status da checagem (anteriores a 20/03):

Modo e responsável pela conversão:

leo-smi commented 4 years ago

https://github.com/CoronaTrack/Covid19-Parana-Database

turicas commented 4 years ago

@leo-smi você viu o corona_pr_spider.py que eu fiz nesse repositório? Os dados do PR que estão no Brasil.IO são resultado desse script. Eu uso a biblioteca rows para extrair o PDF - ainda não está tão boa/fácil para esse PDF quanto o camelot, mas funciona.

leo-smi commented 4 years ago

Amigo esse spider aí ta atualizando o arquivo no google drive? então faltam 23 desses pra cobrir todos os estados?

turicas commented 4 years ago

@leo-smi por enquanto não (eu rodo e atualizo). Ainda estou automatizando os processos para que tudo fique o mais automatizado possível. As planilhas no Google vão mudar de estrutura, pra facilitar quem precisará digitar à mão os dados.

Bonifacio2 commented 4 years ago

O spider do Paraná tá quebrando pra o dia 22/3. Tou investigando.

Bonifacio2 commented 4 years ago

Coisas que tentei até agora pra extrair dados do pdf do dia 22:

Tabula é bem fácil de instalar e usar (e os dados extraídos são um DataFrame pandas). Camelot tem até um exemplo simples de como usar aqui: https://github.com/CoronaTrack/Covid19-Parana-Database/blob/master/covid19_PR.ipynb

Nenhuma dessas bibliotecas (incluindo rows, que é a usada pelo spider atual do Paraná) consegue parsear esse pdf com sucesso. Exemplo do resultado usando Tabula (atenção que a tabela rola para a direita):

REGIONAL DE\rSAÚDE MUNICÍPIO CONFIRMADOS DESCARTADOS EM\rINVESTIGAÇÃO TOTAL
6a – RS Cruz Machado NaN NaN 2.0 2.0
NaN General Carneiro NaN NaN 1.0 1.0
NaN São Mateus do Sul NaN NaN 5.0 5.0
NaN União da Vitória NaN NaN 1.0 1.0
7a – RS Bom Sucesso do Sul NaN NaN 4.0 4.0
Chopinzinho NaN NaN 7.0 7.0 NaN
Clevelândia NaN NaN 2.0 2.0 NaN
Coronel Domingos Soares NaN NaN 1.0 1.0 NaN
Coronel Vivida NaN NaN 7.0 7.0 NaN
Mangueirinha NaN NaN 5.0 5.0 NaN

Notem que a partir da regional 7a – RS as colunas seguintes parecem estar deslocadas à esquerda.

Alguém tem alguma ideia ou sugestão?

biketrooper commented 4 years ago

Rodei o tabula "na mão" e deu certo. Fiz um cron simples pra verificar e avisar qdo o índice de boletins for alterado.

Dados de 24/3: https://docs.google.com/spreadsheets/d/e/2PACX-1vRU-AIpWul3Tk2EW4EBSgUwzHnv3SHZjOCprHnuuB7O47uxN4h000axmdNFpPPBKvyIhUcjUy6Tle92/pubhtml

Bonifacio2 commented 4 years ago

Olá, @biketrooper . É especificamente com o pdf do dia 22 que não funciona.

alexanderfschley commented 4 years ago

Boa notícia @turicas ! A Secretaria de Estado da Saúde do Paraná liberou a extensão CSV! Basta substituir a extensão pdf por csv na URL. sesa_csv

leo-smi commented 4 years ago

Boa notícia @turicas ! A Secretaria de Estado da Saúde do Paraná liberou a extensão CSV! Basta substituir a extensão pdf por csv na URL. sesa_csv

que maravilha

turicas commented 4 years ago

Me mandaram isso: "Atualização sobre o PR, talvez ajude:

leo-smi commented 4 years ago

Muito bom, o Paraná aprendendo com os erros!

leo-smi commented 4 years ago

Paraná com arquivos csv http://www.saude.pr.gov.br/modules/conteudo/conteudo.php?conteudo=3507

turicas commented 4 years ago

Ainda não está perfeito, mas já fiz uma implementação inicial em web/spiders/spider_pr.py (baixa somente os CSVs). Por isso fecharei essa issue.

alexanderfschley commented 4 years ago

Ainda não está perfeito, mas já fiz uma implementação inicial em web/spiders/spider_pr.py (baixa somente os CSVs). Por isso fecharei essa issue.

A Secretaria de Estado da Saúde do Paraná alterou o diretório de armazenamento dos PDFs e CSVs. Inseriu no caminho um diretório referente aos meses.

leo-smi commented 4 years ago

http://www.saude.pr.gov.br/Pagina/Coronavirus-COVID-19