Closed trevineju closed 3 weeks ago
@trevineju e @ogecece vou fazer uma revisão local e debugar uns casos pra ver se consigo encontrar a solução
@trevineju testando para Abaré percebi que aumentando a custon_setting
DOWNLOAD_DELAY
para 2 não havia mais ocorrências.
Dai fiquei em dúvida se a correção deve ser feita no raspador base ou individualmente
Dai fiquei em dúvida se a correção deve ser feita no raspador base ou individualmente
Todos os SAIs estão com esse comportamento, então a solução precisa ser adicionada no raspador base. Mas precisa testar mais raspadores além de Abaré, mesmo
A seguir, estão dados da coleta em produção de 3 municípios que usam SAI.py. Estes jobs apontam diversas ocorrências de erros 404 para URLs que estão ativas, mas não estão sendo coletadas por algum motivo que precisa ser investigado.
Abaré-BA:
Job 09: requests_ba_abare_9.json | log_ba_abare_9.txt | 49 ocorrências de
404
Job 10: requests_ba_abare_10.json | log_ba_abare_10.txt | 43 ocorrências de404
Job 11: requests_ba_abare_11.json | log_ba_abare_11.txt | 34 ocorrências de404
Adustina-BA:
Job 3: requests_ba_adustina_3.json | log_ba_adustina_3.txt | 39 ocorrências de
404
Job 4: requests_ba_adustina_4.json | log_ba_adustina_4.txt | 27 ocorrências de404
Job 5: requests_ba_adustina_5.json | log_ba_adustina_5.txt | 35 ocorrências de404
Almadina-BA:
Job 08: log_ba_almadina_8.txt | requests_ba_almadina_8.json | 16 ocorrências de
404
Job 10: log_ba_almadina_10.txt | requests_ba_almadina_10.json | 43 ocorrências de404
Job 11: log_ba_almadina_11.txt | requests_ba_almadina_11.json | 17 ocorrências de404
Com mais investigação, pode ser que a solução do problema seja outra, mas a primeira vista pode ser que precise adicionar
custom_settings
no raspador SAI para resolver a questão, para exigir menos do servidor, o que pode estar levando a perda dessas edições.