okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.07k stars 391 forks source link

Adiciona novo spider base (Municipio Online) e novas cidades replicadas #937

Closed trevineju closed 9 months ago

trevineju commented 12 months ago

Checklist - Novo spider

Descrição

Adiciona código para novo sistema replicável e 3 cidades que utilizam o sistema.

Deixei comentários em pontos específicos do código, para expor algumas escolhas feitas e, talvez, facilitar a revisão.

Logs: Completa: Do início até 2023-09-21 se_areia_branca_completa.csv | se_areia_branca_completa.txt se_pedra_mole_completa.csv | se_pedra_mole_completa.txt

10 dias: -a start_date=2023-09-01 -a end_date=2023-09-10 se_areia_branca_semana.csv | se_areia_branca_semana.txt se_campo_do_brito_semana.csv | se_campo_do_brito_semana.txt se_pedra_mole_semana.csv | se_pedra_mole_semana.txt

Dia: -a start_date=2023-09-20 -a end_date=2023-09-20 se_areia_branca_dia.csv | se_areia_branca_dia.txt se_campo_do_brito_dia.csv | se_campo_do_brito_dia.txt se_pedra_mole_dia.csv | se_pedra_mole_dia.txt

trevineju commented 10 months ago

Logs de execução da nova versão do raspador:

scrapy crawl se_campo_do_brito -s LOG_FILE=log_campo_do_brito_completo.txt -o campo_do_brito_completo.csv campo_do_brito_completo.csv log_campo_do_brito_completo.txt

scrapy crawl se_campo_do_brito -a start_date=2023-10-01 -s LOG_FILE=log_campo_do_brito_periodo.txt -o campo_do_brito_periodo.csv campo_do_brito_periodo.csv log_campo_do_brito_periodo.txt

scrapy crawl se_campo_do_brito -a start_date=2022-10-01 -a end_date=2022-10-10 -s LOG_FILE=log_campo_do_brito_semana.txt -o campo_do_brito_semana.csv campo_do_brito_semana.csv log_campo_do_brito_semana.txt

scrapy crawl se_campo_do_brito -a start_date=2023-11-16 -s LOG_FILE=log_campo_do_brito_dia.txt -o campo_do_brito_dia.csv campo_do_brito_dia.csv log_campo_do_brito_dia.txt

trevineju commented 9 months ago

@ogecece acolhi os últimos ajustes (já resumindo a história desta PR pra um commit e também atualizando com a main). Não tive problema com site fora do ar. E também confirmo que todas estas 3 cidades seguem publicando atualmente.

Testei todas com os atributos: -a start_date=2023-11-01 -a end_date=2023-11-27

Areia Branca - SE: dados_se_areia_branca.csv log_se_areia_branca.txt

Pedra Mole - SE: dados_se_pedra_mole.csv log_se_pedra_mole.txt

Campo do Brito - SE: dados_se_campo_do_brito.csv log_se_campo_do_brito.txt

trevineju commented 9 months ago

Comparando as execuções usando os mesmos comandos, do outro comentário que deixei aqui e de hoje.

Coleta completa

scrapy crawl se_campo_do_brito -s LOG_FILE=log_campo_do_brito_completo.txt -o campo_do_brito_completo.csv campo_do_brito_completo.csv log_campo_do_brito_completo.txt

Está consistente. Obtém alguns diários a mais já que já passou duas semanas. campo_do_brito_completo.csv log_campo_do_brito_completo.txt

Período

scrapy crawl se_campo_do_brito -a start_date=2022-10-01 -a end_date=2022-10-10 -s LOG_FILE=log_campo_do_brito_semana.txt -o campo_do_brito_semana.csv campo_do_brito_semana.csv log_campo_do_brito_semana.txt

Está completamente consistente. Em particular, pq tem start_date e end_date definidos campo_do_brito_semana.csv log_campo_do_brito_semana.txt

ogecece commented 9 months ago

_