okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.04k stars 384 forks source link

adicionando raspadores para abare, adustina, almadina, anage e andorinha #1134

Closed cassiasamp closed 2 months ago

cassiasamp commented 2 months ago

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

Código da(s) spider(s)

Testes

Verificações

No entanto, eu encontrei problemas nos arquivos de log e apenas os raspadores de Abaré e Almadina foram preenchidos com as páginas do diário. Há erros nos logs de Adustina, Anagé e Andorinha, mas não sei como interpretá-los para corrigir o problema, se foi algum typo que está passando batido ou alguma outra configuração faltante.

Descrição

PR com os primeiros 5 municípios da issue #1115 - lembrando que apenas os raspadores de Abaré e Almadina coletaram dados.

Arquivos de csv e log gerados: ba_andorinha.csv ba_andorinha_jan_dec_2023.csv log_ba_andorinha_jan_dec_2023.txt log_ba_andorinha.txt ba_anage_jan_dec_2023.csv log_ba_anage_jan_dec_2023.txt ba_anage.csv log_ba_anage.txt ba_adustina_jan_dec_2023.csv log_ba_adustina_jan_dec_2023.txt log_ba_adustina.txt ba_adustina.csv log_ba_almadina.txt ba_almadina.csv log_ba_almadina_jan_dec_2023.txt ba_almadina_jan_dec_2023.csv ba_abare.csv log_ba_abare.txt log_ba_abare_jan_dec_2023.txt ba_abare_jan_dec_2023.csv

cassiasamp commented 2 months ago

@trevineju testei aqui e parece que não eram as urls. No arquivo de Anage, eu tinha digitado "2017" ao inves de "2007", no arquivo de Andorinha faltou um "n" na url de dominio e no arquivo de Adustina a data de início estava "27" ao invés de "3". Eu já ajustei e rodei aqui. Agora tudo certo finalmente.

vou fechar esse PR e mandar um novo, tudo bem? aí aproveito e separo do arquivo de request que tinha ido junto sem querer.

cassiasamp commented 2 months ago

Fechando este para mandar um novo com tudo certinho!