okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.07k stars 391 forks source link

Corrige conflitos de produção (#929) #930

Closed trevineju closed 1 year ago

trevineju commented 1 year ago

Descrição

Resolve #929

Comentários

Atualizando minha venv local com os novos requirements, a execução de Prado-BA - mesmo raspador apontado na issue, coletando apenas desde agosto/23 até hoje, gera os seguintes arquivos: prado_com_erro.csv - vazio prado_com_erro.txt

Ao fazer as atualizações propostas neste PR, temos (para o mesmo período de coleta): prado_modificado.csv - coleta com sucesso prado_modificado.txt

Atualizar a biblioteca deprecada pkg_resources foi um dos erros apontados em #929. Segui as instruções em https://importlib-resources.readthedocs.io/en/latest/migration.html para isso. Pareceu funcionar.

Quanto ao erro de validação apontado na issue #929, há uma issue aberta no repositório do Spidermon, que dialoga com o problema: https://github.com/scrapinghub/spidermon/issues/379. Não tive certeza o que fazer com isso.

Abro o PR como ponto de partida do que já enderecei, porém talvez haja outras verificações e modificações para fazer.