Closed trevineju closed 1 month ago
Nos casos em que o intervalo foi muito grande (todos os de 4 anos), apenas o trecho mais recente da série histórica foi integrado para não esburacar os dados que o projeto oferece aos usuários. Essa modificação foi adicionada no commit https://github.com/okfn-brasil/querido-diario/pull/1152/commits/b42efdaeadad27eb543debf1c67b6f1658ddfbca de maneira explícita - sem squash no histórico - para deixar evidente a decisão visto essa situação muito específica.
Uma vez que tenhamos o raspador que coleta o intervalo faltante, integramos o resto da série histórica DOEM.
Esta PR faz:
Logs
Coleta de intervalo
Dos 16 raspadores com data inicial modificada, testei 4 deles com a coleta de um período anterior ao que o raspador tinha antes. Como a lógica de criação de URLs do raspador é mensal, escolhi um intervalo de metade de um mês até metade de outro (
2016-04-15 a 2016-05-25
) para confirmar o filtro. Não foram encontrados problemas em nenhum deles.ba_cipo-periodo.log | ba_cipo-periodo.csv ba_campo_formoso-periodo.log | ba_campo_formoso-periodo.csv ba_alagoinhas-periodo.log | ba_alagoinhas-periodo.csv ba_acajutiba-periodo.log | ba_acajutiba-periodo.csv
Coleta da série completa
Como é sabido que DOEM tem casos de municípios que param de contratar o serviço e depois voltam, foi feita a coleta completa de todos os 16 raspadores que tiveram seu
start_date
atualizado para verificar a presença de longos intervalos que possam indicar ocorrências desse tipo.Casos sem interrupções
Casos com interrupções
ba_acajutiba --- ba_acajutiba-completo.log | ba_acajutiba-completo.csv Ausente intervalo de aprox. 4 meses: 2013-08-27 a 2014-01-13
ba_alcobaca --- ba_alcobaca-completo.log | ba_alcobaca-completo.csv Ausente intervalo de aprox. 4 anos: 2013-04-23 a 2017-03-03
ba_cipo --- ba_cipo-completo.log | ba_cipo-completo.csv Ausente intervalo de aprox. 4 anos: 2017-02-24 a 2021-01-04
ba_itapicuru --- ba_itapicuru-completo.log | ba_itapicuru-completo.csv Ausente intervalo de aprox. 4 anos: 2017-01-03 a 2021-01-04
ba_monte_santo --- ba_monte_santo-completo.log | ba_monte_santo-completo.csv Ausente intervalo de aprox. 4 anos: 2017-01-30 a 2021-01-06
ba_morro_do_chapeu --- ba_morro_do_chapeu-completo.log | ba_morro_do_chapeu-completo.csv Ausente intervalo de aprox. 4 anos: 2017-01-30 a 2021-01-06
ba_santo_estevao --- ba_santo_estevao-completo.log | ba_santo_estevao-completo.csv Ausente intervalo de aprox. 4 anos: 2013-01-30 a 2017-01-06
Novo raspador
A PR também adiciona um novo município, que não apresenta erros de raspagem ou interrupções na série histórica pr_ipiranga-completo.csv | pr_ipiranga-completo.log