Adaptar o spider base doem para navegar o site (método get_url()) a partir da edição da url ao invés da página de pesquisa avançada. E fazer demais correções em função disso
Observação para Mantenedoras
Uma vez que a melhoria for aprovada e mesclada, todos os raspadores que usam DOEM precisarão ser executados novamente.
Aparentemente, nos sites DOEM, há uma diferença entre a quantidade de diários coletada a depender de como se navega o site.
Caso 1: Cícero Dantas (BA)
A coleta completa de Cícero Dantas foi fatiada em intervalos. Foi observado que alguns jobs não coletaram itens (
job 1: 2012-2015
ejob 2: 2015-2017
).Pesquisa Avançada
Buscando o período 2012 a 2017 na pesquisa do DOEM, não há diários https://doem.org.br/ba/cicerodantas/pesquisar?data_inicial=2012-01-01&data_final=2017-12-30
Manipulando a URL
Porém, se manipular a URL da página de edições (https://doem.org.br/ba/cicerodantas/diarios), adicionando
/{ano}
ao fim, há diários para os anos de 2012 a 2017. 2012: https://doem.org.br/ba/cicerodantas/diarios/2012 2013: https://doem.org.br/ba/cicerodantas/diarios/2013 2014: https://doem.org.br/ba/cicerodantas/diarios/2014 2015: https://doem.org.br/ba/cicerodantas/diarios/2015 2016: https://doem.org.br/ba/cicerodantas/diarios/2016 2017: https://doem.org.br/ba/cicerodantas/diarios/2017Caso 2: Inhambupe (BA)
Identifiquei o mesmo comportamento com Inhambupe (BA)
As primeiras fatias (
job 1: 2013-2015
ejob 2: 2015-2017
) não coletam nada, uma vez que pela pesquisa avançada (https://doem.org.br/ba/Inhambupe/pesquisar?data_inicial=2013-01-01&data_final=2017-12-30) não há retornos, mas os diários existem: 2013: https://doem.org.br/ba/Inhambupe/diarios/2013 2014: https://doem.org.br/ba/Inhambupe/diarios/2014 ... 2017: https://doem.org.br/ba/Inhambupe/diarios/2017Tarefa
Adaptar o spider base doem para navegar o site (método
get_url()
) a partir da edição da url ao invés da página de pesquisa avançada. E fazer demais correções em função dissoObservação para Mantenedoras
Uma vez que a melhoria for aprovada e mesclada, todos os raspadores que usam DOEM precisarão ser executados novamente.