okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.11k stars 411 forks source link

Feature/1008 raspador sao jose dos basilios ma #1264

Closed victorfernandesraton closed 2 months ago

victorfernandesraton commented 2 months ago

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

Código da(s) spider(s)

Testes

Verificações

Descrição

Implementação de extração do município São José dos Basilios

OBS: Foi implementado com base nas correções dessa PR https://github.com/okfn-brasil/querido-diario/pull/1030

victorfernandesraton commented 2 months ago

Validação de busca com data inicial 2020-01-01 e final 2022-01-01 data_result-2020-2022.csv output-2020-2021.log

victorfernandesraton commented 2 months ago

Validação de buscas do mes de setembro

OBS: Parece que as datas do site não batem com as datas do arquivo, não apaerce nenhum diário no dia 01/09/2024, mas ao acessar o elemento do dia 06/09/2024 chegamos a este pdf que informa em seu início que o mesmo foi publciado no dia 01/09/2024 data_result-2024-09.csv output-2024-09.log

victorfernandesraton commented 2 months ago

Validação com todos os dados possivéis data_result-all.csv output-all.log

ogecece commented 2 months ago

OBS: Parece que as datas do site não batem com as datas do arquivo, não apaerce nenhum diário no dia 01/09/2024, mas ao acessar o elemento do dia 06/09/2024 chegamos a este pdf que informa em seu início que o mesmo foi publciado no dia 01/09/2024

@victorfernandesraton o arquivo que apresentou é de 06/09/2024 mesmo. Você tinha analisado outra data e acabou trocando?

O que me chamou a atenção aqui é o diário ser publicado sem atos oficiais. Acho que a gente já teve algum caso assim antes e optou por não raspar pra não prejudicar a experiência de usuário. Mas agora tô pendendo pro lado que a gente deveria republicar. É o que veio da fonte, fazer oq? Mas vai prejudicar a experiência de usuário.

@trevineju tem opiniões?

victorfernandesraton commented 2 months ago

@victorfernandesraton obrigado por atualizar esse raspador achei o resultado bem enxuto e objetivo. Tenho alguns pedidos de mudança quanto ao código e algumas opiniões pra você considerar.

Mas também queria ver contigo a melhor maneira de resolver um probleminha com o commit 9e79f27. Como é um commit de merge e está baseado em um commit muito antigo, ele acaba tornando a visualização dos histórico recente de commits bem bagunçada. Você poderia fazer um rebase com a main atualizada pra que a história dessa branch fique linear? Se precisar de algum toque ou se achar melhor eu fazer, não tem problema, só avisar.

Eu consigo reverter sim, fazendo agora...

trevineju commented 2 months ago

@trevineju tem opiniões?

acho que faz sentido, podemos colocar um aviso na mensagem de retorno de resultados no site do QD avisando desse tipo de situação

victorfernandesraton commented 2 months ago

O que me chamou a atenção aqui é o diário ser publicado sem atos oficiais. Acho que a gente já teve algum caso assim antes e optou por não raspar pra não prejudicar a experiência de usuário. Mas agora tô pendendo pro lado que a gente deveria republicar. É o que veio da fonte, fazer oq? Mas vai prejudicar a experiência de usuário.

Sobre essa questão penso que pro intuito do projeto de expor os diários oficiais em si, incluindo esses casos de "dados inutéis" devem ser mantidos até para entendimento desses casos

ogecece commented 2 months ago

Mesclando! Valeu @victorfernandesraton !