Closed trevineju closed 9 months ago
Logs de execução da nova versão do raspador:
scrapy crawl se_campo_do_brito -s LOG_FILE=log_campo_do_brito_completo.txt -o campo_do_brito_completo.csv
campo_do_brito_completo.csv
log_campo_do_brito_completo.txt
scrapy crawl se_campo_do_brito -a start_date=2023-10-01 -s LOG_FILE=log_campo_do_brito_periodo.txt -o campo_do_brito_periodo.csv
campo_do_brito_periodo.csv
log_campo_do_brito_periodo.txt
scrapy crawl se_campo_do_brito -a start_date=2022-10-01 -a end_date=2022-10-10 -s LOG_FILE=log_campo_do_brito_semana.txt -o campo_do_brito_semana.csv
campo_do_brito_semana.csv
log_campo_do_brito_semana.txt
scrapy crawl se_campo_do_brito -a start_date=2023-11-16 -s LOG_FILE=log_campo_do_brito_dia.txt -o campo_do_brito_dia.csv
campo_do_brito_dia.csv
log_campo_do_brito_dia.txt
@ogecece acolhi os últimos ajustes (já resumindo a história desta PR pra um commit e também atualizando com a main
). Não tive problema com site fora do ar. E também confirmo que todas estas 3 cidades seguem publicando atualmente.
Testei todas com os atributos: -a start_date=2023-11-01 -a end_date=2023-11-27
Areia Branca - SE: dados_se_areia_branca.csv log_se_areia_branca.txt
Pedra Mole - SE: dados_se_pedra_mole.csv log_se_pedra_mole.txt
Campo do Brito - SE: dados_se_campo_do_brito.csv log_se_campo_do_brito.txt
Comparando as execuções usando os mesmos comandos, do outro comentário que deixei aqui e de hoje.
scrapy crawl se_campo_do_brito -s LOG_FILE=log_campo_do_brito_completo.txt -o campo_do_brito_completo.csv
campo_do_brito_completo.csv log_campo_do_brito_completo.txt
Está consistente. Obtém alguns diários a mais já que já passou duas semanas. campo_do_brito_completo.csv log_campo_do_brito_completo.txt
scrapy crawl se_campo_do_brito -a start_date=2022-10-01 -a end_date=2022-10-10 -s LOG_FILE=log_campo_do_brito_semana.txt -o campo_do_brito_semana.csv
campo_do_brito_semana.csv log_campo_do_brito_semana.txt
Está completamente consistente. Em particular, pq tem start_date e end_date definidos campo_do_brito_semana.csv log_campo_do_brito_semana.txt
Checklist - Novo spider
start_date
eend_date
definidos) ao menos uma vez e os dados retornados estavam corretos.log_count/ERROR
igual a zero).start_date
no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.Descrição
Adiciona código para novo sistema replicável e 3 cidades que utilizam o sistema.
Deixei comentários em pontos específicos do código, para expor algumas escolhas feitas e, talvez, facilitar a revisão.
Logs: Completa: Do início até 2023-09-21 se_areia_branca_completa.csv | se_areia_branca_completa.txt se_pedra_mole_completa.csv | se_pedra_mole_completa.txt
10 dias:
-a start_date=2023-09-01 -a end_date=2023-09-10
se_areia_branca_semana.csv | se_areia_branca_semana.txt se_campo_do_brito_semana.csv | se_campo_do_brito_semana.txt se_pedra_mole_semana.csv | se_pedra_mole_semana.txtDia:
-a start_date=2023-09-20 -a end_date=2023-09-20
se_areia_branca_dia.csv | se_areia_branca_dia.txt se_campo_do_brito_dia.csv | se_campo_do_brito_dia.txt se_pedra_mole_dia.csv | se_pedra_mole_dia.txt