PR - Githubissues

turicas commented 4 years ago

Boletins:

Link para o site dos boletins na Secretaria de Saúde de PR

Status da checagem (anteriores a 20/03):

[x] Boletins
[x] Casos

Modo e responsável pela conversão:

Boletins: manualmente por @turicas (falta criar script)
Casos: script feito por @turicas (corona_pr_spider.py)

leo-smi commented 4 years ago

https://github.com/CoronaTrack/Covid19-Parana-Database

turicas commented 4 years ago

@leo-smi você viu o corona_pr_spider.py que eu fiz nesse repositório? Os dados do PR que estão no Brasil.IO são resultado desse script. Eu uso a biblioteca rows para extrair o PDF - ainda não está tão boa/fácil para esse PDF quanto o camelot, mas funciona.

leo-smi commented 4 years ago

Amigo esse spider aí ta atualizando o arquivo no google drive? então faltam 23 desses pra cobrir todos os estados?

turicas commented 4 years ago

@leo-smi por enquanto não (eu rodo e atualizo). Ainda estou automatizando os processos para que tudo fique o mais automatizado possível. As planilhas no Google vão mudar de estrutura, pra facilitar quem precisará digitar à mão os dados.

Bonifacio2 commented 4 years ago

O spider do Paraná tá quebrando pra o dia 22/3. Tou investigando.

Bonifacio2 commented 4 years ago

Coisas que tentei até agora pra extrair dados do pdf do dia 22:

Usar a biblioteca tabula-py
Usar a bibiloteca camelot

Tabula é bem fácil de instalar e usar (e os dados extraídos são um DataFrame pandas). Camelot tem até um exemplo simples de como usar aqui: https://github.com/CoronaTrack/Covid19-Parana-Database/blob/master/covid19_PR.ipynb

Nenhuma dessas bibliotecas (incluindo rows, que é a usada pelo spider atual do Paraná) consegue parsear esse pdf com sucesso. Exemplo do resultado usando Tabula (atenção que a tabela rola para a direita):

REGIONAL DE\rSAÚDE	MUNICÍPIO	CONFIRMADOS	DESCARTADOS	EM\rINVESTIGAÇÃO	TOTAL
6a – RS	Cruz Machado	NaN	NaN	2.0	2.0
NaN	General Carneiro	NaN	NaN	1.0	1.0
NaN	São Mateus do Sul	NaN	NaN	5.0	5.0
NaN	União da Vitória	NaN	NaN	1.0	1.0
7a – RS	Bom Sucesso do Sul	NaN	NaN	4.0	4.0
Chopinzinho	NaN	NaN	7.0	7.0	NaN
Clevelândia	NaN	NaN	2.0	2.0	NaN
Coronel Domingos Soares	NaN	NaN	1.0	1.0	NaN
Coronel Vivida	NaN	NaN	7.0	7.0	NaN
Mangueirinha	NaN	NaN	5.0	5.0	NaN

Notem que a partir da regional 7a – RS as colunas seguintes parecem estar deslocadas à esquerda.

Alguém tem alguma ideia ou sugestão?

biketrooper commented 4 years ago

Rodei o tabula "na mão" e deu certo. Fiz um cron simples pra verificar e avisar qdo o índice de boletins for alterado.

Dados de 24/3: https://docs.google.com/spreadsheets/d/e/2PACX-1vRU-AIpWul3Tk2EW4EBSgUwzHnv3SHZjOCprHnuuB7O47uxN4h000axmdNFpPPBKvyIhUcjUy6Tle92/pubhtml

Bonifacio2 commented 4 years ago

Olá, @biketrooper . É especificamente com o pdf do dia 22 que não funciona.

alexanderfschley commented 4 years ago

Boa notícia @turicas ! A Secretaria de Estado da Saúde do Paraná liberou a extensão CSV! Basta substituir a extensão pdf por csv na URL. sesa_csv

leo-smi commented 4 years ago

Boa notícia @turicas ! A Secretaria de Estado da Saúde do Paraná liberou a extensão CSV! Basta substituir a extensão pdf por csv na URL.

que maravilha

turicas commented 4 years ago

Me mandaram isso: "Atualização sobre o PR, talvez ajude:

adicionaram um excelzão, hehe.
e uma tabela html nessa página aqui: http://www.coronavirus.pr.gov.br/Campanha/Pagina/TRANSPARENCIA-Enfrentamento-ao-Coronavirus-4 "

leo-smi commented 4 years ago

Muito bom, o Paraná aprendendo com os erros!

leo-smi commented 4 years ago

Paraná com arquivos csv http://www.saude.pr.gov.br/modules/conteudo/conteudo.php?conteudo=3507

turicas commented 4 years ago

Ainda não está perfeito, mas já fiz uma implementação inicial em web/spiders/spider_pr.py (baixa somente os CSVs). Por isso fecharei essa issue.

alexanderfschley commented 4 years ago

Ainda não está perfeito, mas já fiz uma implementação inicial em web/spiders/spider_pr.py (baixa somente os CSVs). Por isso fecharei essa issue.

A Secretaria de Estado da Saúde do Paraná alterou o diretório de armazenamento dos PDFs e CSVs. Inseriu no caminho um diretório referente aos meses.

leo-smi commented 4 years ago

http://www.saude.pr.gov.br/Pagina/Coronavirus-COVID-19

turicas / covid19-br

PR #1