Closed cassiasamp closed 5 months ago
Oi @trevineju, não sei se ficou confuso, mas neste PR deve estar tudo certinho :)
oi, @cassiasamp.
Não sei te dizer quando volto aqui. Nós temos mais de 60 PRs abertas, então vamos adicionando aos poucos (de referência, fazemos revisões abertas toda quarta feira a tarde no nosso discord da comunidade)
Além disso, com o que está acontecendo no Rio Grande do Sul, fizemos um esforço de priorizar a adição de municípios de lá.
Mas muito obrigada pela contribuição e pela paciência
Obrigada pela PR e pela paciência, @cassiasamp! Segue a análise dos logs que você anexou na PR:
Coleta por período está ok
Coleta completa tem duas edições abandonadas 'item_dropped_count': 2
que verifiquei serem erros no site mesmo (404 e empty-content)
Coleta por período está ok
Coleta completa tem duas edições abandonadas 'item_dropped_count': 2
que verifiquei serem erros no site mesmo (ambos empty-content)
Coleta por período está ok
Coleta completa tem duas edições abandonadas 'item_dropped_count': 4
que verifiquei serem erros no site mesmo (3 ocorrências de empty-content e 1 ocorrência de 404)
Coleta por período está ok
Coleta completa teve 92 erros de sqlite3.IntegrityError
que é quando tenta adicionar no banco querido-diario.db
uma edição que já existe lá. Como só ocorreu para datas de 2007 e 2008, não ficou claro pra mim se era um erro do site (poderia ser edições repetidas) ou se por ventura a coleta foi executada duas vezes. Testei novamente esse período e o erro não ocorreu.
anage-2007-2008.csv | anage-2007-2008.log
Coleta por período está ok
Coleta completa tem duas edições abandonadas 'item_dropped_count': 4
que verifiquei serem erros no site mesmo (4 ocorrências de empty-content)
Como nenhum desses erros é culpa do raspador, visto que 404 (URL quebrada) e empty-content (arquivo vazio) são problemas do site publicador, tá aprovada a PR!
Obrigada!!
Atualizei a história dessa branch
com a main
e também resumi os commits para não poluir o histórico.
Resumir os commits sendo: transformar todo o histórico de commits que tinha aqui antes e em apenas um.
Antes:
Depois: https://github.com/okfn-brasil/querido-diario/pull/1137/commits/6720b18e75ba392401d09f7f0eeaf14cc776c170, se você clicar no commit é possível ver o histórico lá, centralizado.
Terceiro PR com os primeiros 5 municípios da issue #1115. O primeiro PR foi #1134, então #1135 e agora os arquivos estão finalmente corretos.
Sei que nessa ocasião não consegui, por conta do RS, mas costumo também ajudar as pessoas com dificuldade com Git/GitHub. Não precisava ter aberto e fechado 2 PRs até chegar nessa 3ª, podíamos ter corrigido lá na primeira PR mesmo. Da próxima vez melhoramos isso! 😃
Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Os logs de Andorinha, Almadina, Andustina e Abaré tem a contagem de 1 erro.
Descrição
Terceiro PR com os primeiros 5 municípios da issue #1115. O primeiro PR foi #1134, então #1135 e agora os arquivos estão finalmente corretos.
Arquivos de csv e log gerados:
última edição log_ba_abare_last.log log_ba_adustina_last.log log_ba_almadina_last.log log_ba_anage_last.log log_ba_andorinha_last.log
completos e por intervalo arbitrário -- adustina ba_adustina.csv log_ba_adustina.txt ba_adustina_jan_dec_2023.csv log_ba_adustina_jan_dec_2023.log --andorinha ba_andorinha.csv log_ba_andorinha.txt log_ba_andorinha_jan_dec_2023.txt ba_andorinha_jan_dec_2023.csv -- anage log_ba_anage_jan_dec_2023.txt ba_anage.csv log_ba_anage.txt ba_anage_jan_dec_2023.csv -- almadina log_ba_almadina.txt ba_almadina.csv log_ba_almadina_jan_dec_2023.txt ba_almadina_jan_dec_2023.csv -- abare ba_abare.csv log_ba_abare.txt log_ba_abare_jan_dec_2023.txt ba_abare_jan_dec_2023.csv