Open dehatanes opened 2 years ago
@turicas você sabe o que pode estar causando esse problema nos testes?
Localmente esse problema tinha rolado, mas foi consertado quando rodei pip install pymupdf cached-property
. Tentei simular isso no commit 7eede92, mas aparentemente não funcionou 😅
Sobre os testes, não sei o que pode estar causando, mas localmente eles também passam. Pode ser versão de biblioteca no cache do pip ou alguma dependência que está faltando.
@turicas Adicionei um caso de teste. Eu estava adicionando outro exemplo mais antigo, mas peguei que o spider não estava se comportando bem no caso de Natal (por exemplo) desses pdf's (onde o numero de casos de mortes está quebrado em duas linhas).
PS: Essa não é a única inconsistência de dados que esse layout tem. O scraper também falhou em pegar algumas cidades (provavelmente por conta de alguma questão de posicionamento desse layout específico - também não é um problema que aconteceu nos templates recentes), mas são erros facilmente identificados quando usamos a flag --also-export-metadata
.
Acha que priorizamos esses casos agora ou então mexemos nisso conforme esses casos voltarem a acontecer?
Implementando spider para o estado Rio Grande do Norte.
Fonte usada:
Esse spider: