okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.12k stars 411 forks source link

[Novo spider base]: NucleoGov - Anápolis, GO #1147

Open xxggabriel opened 6 months ago

xxggabriel commented 6 months ago

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

Código da(s) spider(s)

Testes

Verificações

Descrição

Este pull request adiciona o spider base para o sistema NucleoGov, utilizando o mapeador (PR #1019).

Observacao

Ao analisar o NucleoGov, notei que existe outro sistema que lista decretos de forma individual via API. Não consegui listar as demais cidades, mas sei que existem municípios de outros estados que utilizam esse sistema. Neste link é possível acessar os decretos do município de Rio Verde, Goiás.

Após a aceitação deste PR, criarei os spiders das outras cidades que utilizam o NucleoGov:

Municípios que faltam ser integrados:
  1. Diário Oficial de Cariri, TO
  2. Diário Oficial do Paraná, TO
  3. Diário Oficial de Jaú, TO
  4. Diário Oficial de Valparaíso de Goiás, GO
Testes

Devido ao intervalo de start_date ser de 2010, meu PC não tem espaço suficiente para fazer uma coleta completa.

Arquivos de teste:

ultima
maio/2024 - hoje
trevineju commented 6 months ago

Obrigada pela PR, @xxggabriel

Após a aceitação deste PR, criarei os spiders das outras cidades que utilizam o NucleoGov

Precisamos de mais municípios para revisar esta PR (pelo menos 5 é o que indicamos sempre nesses casos). Aqui, o que está em jogo é: o código nucleogov.py precisa ser genérico o suficiente para ser a classe base para vários outros raspadores. Quando se adiciona só um, não temos essa garantia. Sabemos apenas que serve pra Anápolis.

Se você puder colocar o código para os demais 4 aqui, coloco sua PR na fila de revisão. Se puder adicionar os testes pra última edição e pro período arbitrário para cada um deles, seria ótimo.

Como você disse que não consegue a coleta completa, poderia tentar para, pelo menos, 1 ano? Não faz a coleta completa (fazemos depois quando formos revisar), mas pelo menos a arbitrária ficaria com um intervalo maior que apenas um mês.

xxggabriel commented 6 months ago

Espero que isso atenda aos requisitos para revisão. Qualquer dúvida ou necessidade de ajuste, estou à disposição.

Testes para Jaú:

Testes para Paraná:

Testes para Cariri:

Testes para Valparaíso de Goiás:

trevineju commented 6 months ago

show, @xxggabriel!! Obrigada! PR adicionada à fila de revisão

trevineju commented 5 months ago

Outra coisa que dei uma olhada, mas ainda não entendi bem é qual o reflexo do campo calendar na query https://dom.anapolis.go.gov.br/api/diarios?data={}&calendar=true&situacao=2.

situacao=<valor> entendi que é 1 - em andamento (https://dom.anapolis.go.gov.br/api/diarios?situacao=1) 2 - publicado (https://dom.anapolis.go.gov.br/api/diarios?situacao=2) e, realmente, só queremos pegar a versão final publicada.

mas calendar=true não entendi o que está sendo selecionado.

você entendeu, @xxggabriel? chegou a olhar isso?