turicas / covid19-br

Dados diários mais recentes do coronavírus por município brasileiro
https://brasil.io/dataset/covid19
GNU Lesser General Public License v3.0
531 stars 128 forks source link

[Feat] RN Spider #220

Open dehatanes opened 2 years ago

dehatanes commented 2 years ago

Implementando spider para o estado Rio Grande do Norte.

Fonte usada:

Esse spider:

dehatanes commented 2 years ago

@turicas você sabe o que pode estar causando esse problema nos testes? Localmente esse problema tinha rolado, mas foi consertado quando rodei pip install pymupdf cached-property. Tentei simular isso no commit 7eede92, mas aparentemente não funcionou 😅

turicas commented 2 years ago

Sobre os testes, não sei o que pode estar causando, mas localmente eles também passam. Pode ser versão de biblioteca no cache do pip ou alguma dependência que está faltando.

dehatanes commented 2 years ago

@turicas Adicionei um caso de teste. Eu estava adicionando outro exemplo mais antigo, mas peguei que o spider não estava se comportando bem no caso de Natal (por exemplo) desses pdf's (onde o numero de casos de mortes está quebrado em duas linhas).

PS: Essa não é a única inconsistência de dados que esse layout tem. O scraper também falhou em pegar algumas cidades (provavelmente por conta de alguma questão de posicionamento desse layout específico - também não é um problema que aconteceu nos templates recentes), mas são erros facilmente identificados quando usamos a flag --also-export-metadata.

Acha que priorizamos esses casos agora ou então mexemos nisso conforme esses casos voltarem a acontecer?