okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.12k stars 411 forks source link

Adiciona spiders para Abaré, Adustina, Almadina, Anagé e Andorinha #1137

Closed cassiasamp closed 5 months ago

cassiasamp commented 7 months ago

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

Código da(s) spider(s)

Testes

Verificações

Os logs de Andorinha, Almadina, Andustina e Abaré tem a contagem de 1 erro.

Descrição

Terceiro PR com os primeiros 5 municípios da issue #1115. O primeiro PR foi #1134, então #1135 e agora os arquivos estão finalmente corretos.

Arquivos de csv e log gerados:

cassiasamp commented 6 months ago

Oi @trevineju, não sei se ficou confuso, mas neste PR deve estar tudo certinho :)

trevineju commented 6 months ago

oi, @cassiasamp.

Não sei te dizer quando volto aqui. Nós temos mais de 60 PRs abertas, então vamos adicionando aos poucos (de referência, fazemos revisões abertas toda quarta feira a tarde no nosso discord da comunidade)

Além disso, com o que está acontecendo no Rio Grande do Sul, fizemos um esforço de priorizar a adição de municípios de lá.

Mas muito obrigada pela contribuição e pela paciência

trevineju commented 5 months ago

Obrigada pela PR e pela paciência, @cassiasamp! Segue a análise dos logs que você anexou na PR:

Abaré

Coleta por período está ok Coleta completa tem duas edições abandonadas 'item_dropped_count': 2 que verifiquei serem erros no site mesmo (404 e empty-content)

Adustina

Coleta por período está ok Coleta completa tem duas edições abandonadas 'item_dropped_count': 2 que verifiquei serem erros no site mesmo (ambos empty-content)

Almadina

Coleta por período está ok Coleta completa tem duas edições abandonadas 'item_dropped_count': 4 que verifiquei serem erros no site mesmo (3 ocorrências de empty-content e 1 ocorrência de 404)

Anagé

Coleta por período está ok Coleta completa teve 92 erros de sqlite3.IntegrityError que é quando tenta adicionar no banco querido-diario.db uma edição que já existe lá. Como só ocorreu para datas de 2007 e 2008, não ficou claro pra mim se era um erro do site (poderia ser edições repetidas) ou se por ventura a coleta foi executada duas vezes. Testei novamente esse período e o erro não ocorreu.

anage-2007-2008.csv | anage-2007-2008.log

Andorinha

Coleta por período está ok Coleta completa tem duas edições abandonadas 'item_dropped_count': 4 que verifiquei serem erros no site mesmo (4 ocorrências de empty-content)


Como nenhum desses erros é culpa do raspador, visto que 404 (URL quebrada) e empty-content (arquivo vazio) são problemas do site publicador, tá aprovada a PR!

Obrigada!!

trevineju commented 5 months ago

Atualizei a história dessa branch com a main e também resumi os commits para não poluir o histórico.

Resumir os commits sendo: transformar todo o histórico de commits que tinha aqui antes e em apenas um.

Antes: Screenshot from 2024-06-12 11-12-23

Depois: https://github.com/okfn-brasil/querido-diario/pull/1137/commits/6720b18e75ba392401d09f7f0eeaf14cc776c170, se você clicar no commit é possível ver o histórico lá, centralizado.

Terceiro PR com os primeiros 5 municípios da issue #1115. O primeiro PR foi #1134, então #1135 e agora os arquivos estão finalmente corretos.

Sei que nessa ocasião não consegui, por conta do RS, mas costumo também ajudar as pessoas com dificuldade com Git/GitHub. Não precisava ter aberto e fechado 2 PRs até chegar nessa 3ª, podíamos ter corrigido lá na primeira PR mesmo. Da próxima vez melhoramos isso! 😃