okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.08k stars 393 forks source link

[Melhoria] Spider base para DOEM poderia coletar mais diários #1041

Closed trevineju closed 4 months ago

trevineju commented 10 months ago

Aparentemente, nos sites DOEM, há uma diferença entre a quantidade de diários coletada a depender de como se navega o site.

Caso 1: Cícero Dantas (BA)

A coleta completa de Cícero Dantas foi fatiada em intervalos. Foi observado que alguns jobs não coletaram itens (job 1: 2012-2015 e job 2: 2015-2017). image

Pesquisa Avançada

Buscando o período 2012 a 2017 na pesquisa do DOEM, não há diários https://doem.org.br/ba/cicerodantas/pesquisar?data_inicial=2012-01-01&data_final=2017-12-30 image

Manipulando a URL

Porém, se manipular a URL da página de edições (https://doem.org.br/ba/cicerodantas/diarios), adicionando /{ano} ao fim, há diários para os anos de 2012 a 2017. 2012: https://doem.org.br/ba/cicerodantas/diarios/2012 2013: https://doem.org.br/ba/cicerodantas/diarios/2013 2014: https://doem.org.br/ba/cicerodantas/diarios/2014 2015: https://doem.org.br/ba/cicerodantas/diarios/2015 2016: https://doem.org.br/ba/cicerodantas/diarios/2016 2017: https://doem.org.br/ba/cicerodantas/diarios/2017 image

Caso 2: Inhambupe (BA)

Identifiquei o mesmo comportamento com Inhambupe (BA) image

As primeiras fatias (job 1: 2013-2015 e job 2: 2015-2017) não coletam nada, uma vez que pela pesquisa avançada (https://doem.org.br/ba/Inhambupe/pesquisar?data_inicial=2013-01-01&data_final=2017-12-30) não há retornos, mas os diários existem: 2013: https://doem.org.br/ba/Inhambupe/diarios/2013 2014: https://doem.org.br/ba/Inhambupe/diarios/2014 ... 2017: https://doem.org.br/ba/Inhambupe/diarios/2017

Tarefa

Adaptar o spider base doem para navegar o site (método get_url()) a partir da edição da url ao invés da página de pesquisa avançada. E fazer demais correções em função disso

Observação para Mantenedoras

Uma vez que a melhoria for aprovada e mesclada, todos os raspadores que usam DOEM precisarão ser executados novamente.