okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.11k stars 411 forks source link

[Windows]Spiders que usam dateparser com erro : No module named 'tzdata' #962

Open Winzen opened 1 year ago

Winzen commented 1 year ago

Testando 139 spiders que estão em enabled_spiders.py no windows. Percebi que ao menos 20 estavam com um erro incomum de: ModuleNotFoundError: No module named 'tzdata. Boa parte do sistema replicável DOEM

ba_acajutiba, ba_alagoinhas, ba_alcobaca, ba_campo_formoso, ba_canudos, ba_feira_de_santana, ba_itapetinga, ba_juazeiro, ba_mascote, ba_prado, ba_santo_estevao, ba_senhor_do_bonfim, ba_teolandia, ba_tucano, go_goiania, pe_jaboatao_dos_guararapes, pe_petrolina, rr_boa_vista, sc_florianopolis, sc_joinville, se_nossa_senhora_do_socorro

Fui dar uma olhada nas modificações que aconteceram e parece que o "tzdata" foi removido das dependência: aqui Ao que parece todos os raspadores citados tem o dateparser como uma importação e ele parece ter ficado inconsistente com a falta do tzdata no windows.

#

dateparser acaba chamando zoneinfo para tenta encontrar o fuso horário pelo sistema local a partir do IANA time zone database (supostamente o windows não utiliza nativamente) e ao falhar tenta usa o tzdata que não faz mais parte do requirements-dev.txt do QD.

The zoneinfo module provides a concrete time zone implementation to support the IANA time zone database as originally specified in PEP 615. By default, zoneinfo uses the system’s time zone data if available; if no system time zone data is available, the library will fall back to using the first-party tzdata package available on PyPI.

Baixar o 'tzdata' já resolver a questão:

pip install tzdata

Alguns logs exemplo do erro: log_ba_alcobaca.txt log_ba_campo_formoso.txt log_rr_boa_vista.txt log_sc_joinville.txt log_se_nossa_senhora_do_socorro.txt

natanluiz99 commented 1 year ago

Todas as cidades do Grupo 1 da #947 estão com o mesmo erro sendo executados os raspadores no windows As cidades e seus logs:

log_ba_alcobaca.txt log_ba_antonio_cardoso.txt log_ba_banzae.txt log_ba_barra_do_choca.txt log_ba_barrocas.txt

trevineju commented 1 year ago

Só pra deixar avisado que, quem usa Windows e for contribuir, não precisa deixar de enviar a PR só pq deu esse erro em específico. Como o projeto roda em linux, e não estamos tendo esse problema, confiro isso ao revisar a PR.

Obrigada @Winzen por estar cuidando da solução de problemas

natanluiz99 commented 1 year ago

estou conseguindo fazer a revisão das cidades do grupo 1 da issue #947 após ter instalado a biblioteca tzdata