okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.06k stars 388 forks source link

Verificando falta de extensão #946

Closed Winzen closed 2 months ago

Winzen commented 11 months ago

AO ABRIR um Pull Request de um novo raspador (spider), marque com um X cada um dos items do checklist abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.

Checklist - Novo spider

Descrição

PR referente #819

Fiz o levantamento que de 250478 diários raspados, 53,95% deles que equivale a um total de 135139 diários, estão sem extensão e como já foi descrito em #819 é um problema para os usuários do Windows. Dados levantados ➡️ Dados

Escolhi 5 dos municípios com mais diários sem extensão para fazer os teste: Cuiabá, Santos, Rio de Janeiro, Santo André e Belém. image

#

Primeiro testei eles sem o validador de extensão, para confirmar que eles não estavam sendo armazenados com .pdf. Segui os logs confirmando a falta de extensão: log_pa_belem_sem_extensão.txt log_rj_rio_de_janeiro_sem_extensão.txt log_sp_santo_andre_sem_extensão.txt log_sp_santos_sem_extensão.txt log_mt_cuiaba_sem_extensão.txt

Como vemos em todos os registros dos logs o path está sem extensão. Exemplo: 'path': '5103403\\2023-09-04\\ebb9ca864c1569b7cdb25e599e00a49b77d38b4c'

#

Agora segue os mesmo rapadores, com o validador colocado na pipelines.py. Logs: log_pa_belem_com_extensão.txt log_rj_rio_de_janeiro_com_extensão.txt log_sp_santo_andre_com_extensão.txt log_sp_santos_com_extensão.txt log_mt_cuiaba_com_extensão.txt

Vemos que agora todos eles estão com extensão correta em path. Exemplo: 'path': '5103403\\2023-09-04\\ebb9ca864c1569b7cdb25e599e00a49b77d38b4c.pdf',

#

E para finalizar fiz teste com 5 dos municípios com mais diários que estão com extensão corretamente: Porto Alegre, Goiânia, Manaus, Salvador e Natal image

Segue os logs:

log_rn_natal.txt log_rs_porto_alegre.txt log_am_manaus.txt log_ba_salvador.txt log_go_goiania.txt

Vemos que eles se encontram sem erros e com as extensão ainda correta, mesmo com o validador já inserido a pipelines.py.

Obs: Acredito que tenha forma mais "legante" de fazer essa validação que posteriormente poderia ser aplicada. Mas já deixo o PR até eu ver isso e a ideia se alguém tiver uma melhor abordagem.

trevineju commented 11 months ago

@Winzen será que você conseguiria atualizar a história dos commits? Se você navegar até o repositório pelo terminal, voltar pra branch principal (git checkout main) e atualizar sua main local com a main do repositório (git fetch, git pull). Com a main local atualizada, você não precisa criar um merge ( aquele fc80 que aparece aqui ), bastaria voltar para a branch deste PR (git checkout add_extension) e aí usa git rebase main. Se tudo der certo, vc vai perceber que os commits meus e do Renne vão sair deste histórico, ficando apenas os teus. Vai precisar forçar (git push -f) para enviar as modificações de volta pra cá

ogecece commented 2 months ago

Fechando o PR em razão da implementação de #1153