okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.04k stars 384 forks source link

[Melhoria] Raspadores SAI estão perdendo algumas edições em coletas longas #1175

Open trevineju opened 2 weeks ago

trevineju commented 2 weeks ago

A seguir, estão dados da coleta em produção de 3 municípios que usam SAI.py. Estes jobs apontam diversas ocorrências de erros 404 para URLs que estão ativas, mas não estão sendo coletadas por algum motivo que precisa ser investigado.

Abaré-BA:

Job 09: requests_ba_abare_9.json | log_ba_abare_9.txt | 49 ocorrências de 404 Job 10: requests_ba_abare_10.json | log_ba_abare_10.txt | 43 ocorrências de 404 Job 11: requests_ba_abare_11.json | log_ba_abare_11.txt | 34 ocorrências de 404

Adustina-BA:

Job 3: requests_ba_adustina_3.json | log_ba_adustina_3.txt | 39 ocorrências de 404 Job 4: requests_ba_adustina_4.json | log_ba_adustina_4.txt | 27 ocorrências de 404 Job 5: requests_ba_adustina_5.json | log_ba_adustina_5.txt | 35 ocorrências de 404

Almadina-BA:

Job 08: log_ba_almadina_8.txt | requests_ba_almadina_8.json | 16 ocorrências de 404 Job 10: log_ba_almadina_10.txt | requests_ba_almadina_10.json | 43 ocorrências de 404 Job 11: log_ba_almadina_11.txt | requests_ba_almadina_11.json | 17 ocorrências de 404

Com mais investigação, pode ser que a solução do problema seja outra, mas a primeira vista pode ser que precise adicionar custom_settings no raspador SAI para resolver a questão, para exigir menos do servidor, o que pode estar levando a perda dessas edições.