Closed turicas closed 4 years ago
@leo-smi você viu o corona_pr_spider.py
que eu fiz nesse repositório? Os dados do PR que estão no Brasil.IO são resultado desse script. Eu uso a biblioteca rows para extrair o PDF - ainda não está tão boa/fácil para esse PDF quanto o camelot, mas funciona.
Amigo esse spider aí ta atualizando o arquivo no google drive? então faltam 23 desses pra cobrir todos os estados?
@leo-smi por enquanto não (eu rodo e atualizo). Ainda estou automatizando os processos para que tudo fique o mais automatizado possível. As planilhas no Google vão mudar de estrutura, pra facilitar quem precisará digitar à mão os dados.
O spider do Paraná tá quebrando pra o dia 22/3. Tou investigando.
Coisas que tentei até agora pra extrair dados do pdf do dia 22:
Tabula é bem fácil de instalar e usar (e os dados extraídos são um DataFrame pandas). Camelot tem até um exemplo simples de como usar aqui: https://github.com/CoronaTrack/Covid19-Parana-Database/blob/master/covid19_PR.ipynb
Nenhuma dessas bibliotecas (incluindo rows
, que é a usada pelo spider atual do Paraná) consegue parsear esse pdf com sucesso.
Exemplo do resultado usando Tabula (atenção que a tabela rola para a direita):
REGIONAL DE\rSAÚDE | MUNICÍPIO | CONFIRMADOS | DESCARTADOS | EM\rINVESTIGAÇÃO | TOTAL |
---|---|---|---|---|---|
6a – RS | Cruz Machado | NaN | NaN | 2.0 | 2.0 |
NaN | General Carneiro | NaN | NaN | 1.0 | 1.0 |
NaN | São Mateus do Sul | NaN | NaN | 5.0 | 5.0 |
NaN | União da Vitória | NaN | NaN | 1.0 | 1.0 |
7a – RS | Bom Sucesso do Sul | NaN | NaN | 4.0 | 4.0 |
Chopinzinho | NaN | NaN | 7.0 | 7.0 | NaN |
Clevelândia | NaN | NaN | 2.0 | 2.0 | NaN |
Coronel Domingos Soares | NaN | NaN | 1.0 | 1.0 | NaN |
Coronel Vivida | NaN | NaN | 7.0 | 7.0 | NaN |
Mangueirinha | NaN | NaN | 5.0 | 5.0 | NaN |
Notem que a partir da regional 7a – RS
as colunas seguintes parecem estar deslocadas à esquerda.
Alguém tem alguma ideia ou sugestão?
Rodei o tabula "na mão" e deu certo. Fiz um cron simples pra verificar e avisar qdo o índice de boletins for alterado.
Dados de 24/3: https://docs.google.com/spreadsheets/d/e/2PACX-1vRU-AIpWul3Tk2EW4EBSgUwzHnv3SHZjOCprHnuuB7O47uxN4h000axmdNFpPPBKvyIhUcjUy6Tle92/pubhtml
Olá, @biketrooper . É especificamente com o pdf do dia 22 que não funciona.
Boa notícia @turicas ! A Secretaria de Estado da Saúde do Paraná liberou a extensão CSV! Basta substituir a extensão pdf por csv na URL.
Boa notícia @turicas ! A Secretaria de Estado da Saúde do Paraná liberou a extensão CSV! Basta substituir a extensão pdf por csv na URL.
que maravilha
Me mandaram isso: "Atualização sobre o PR, talvez ajude:
Muito bom, o Paraná aprendendo com os erros!
Paraná com arquivos csv http://www.saude.pr.gov.br/modules/conteudo/conteudo.php?conteudo=3507
Ainda não está perfeito, mas já fiz uma implementação inicial em web/spiders/spider_pr.py
(baixa somente os CSVs). Por isso fecharei essa issue.
Ainda não está perfeito, mas já fiz uma implementação inicial em
web/spiders/spider_pr.py
(baixa somente os CSVs). Por isso fecharei essa issue.
A Secretaria de Estado da Saúde do Paraná alterou o diretório de armazenamento dos PDFs e CSVs. Inseriu no caminho um diretório referente aos meses.
Boletins:
Status da checagem (anteriores a 20/03):
Modo e responsável pela conversão:
corona_pr_spider.py
)