Open talesmota opened 1 month ago
Boa tarde @trevineju , desculpa te pingar, mas você é a minha única referência aqui. Mas quando eu rodei o spider para todo o período ele apresentou o um erro, o mesmo que foi relato na issue 869. Eu não tenho ideia de como debugar esse erro, apesar que não ter interferido no processo e os arquivos terem sido baixados corretamente e o csv ter sido gerado normalmente.
O log do erro é esse aqui.. E o erro apresentado é o que segue, _Item Validation Monitor/test_statmonitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '6'
Boa tarde @trevineju , desculpa te pingar, mas você é a minha única referência aqui.
Pode pingar, tô aqui pra isso! (:
temos um discord tb, https://go.ok.org.br/discord, que tem um canal para conversar sobre raspadores que outras pessoas também respondem. Porém, prefiro quando fazem como vc e conversam aqui na issue ou no PR, fica mais contextualizado.
Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '6'
Se você pesquisar no log por "ERROR" vai achar 6 casos. Um deles é:
2024-05-09 13:01:50 [scrapy.pipelines.files] WARNING: File (code: 404): Error downloading file from <GET http://portal.guaratuba.pr.gov.br/images/oficial2014/332.pdf> referred in
O log está informando que estas 6 edições não foram coletadas. Tem que investigar esses casos. Olhei esse primeiro e parece que o arquivo da edição 332 (29/08/14) não existe no site justificando ter dado 404.
Tem que ir conferir os 5 demais, porém nesse caso, parece que não tem nada de errado. Pro raspador é um erro pq ele espera coletar o arquivo e não acha; mas se o arquivo não existe no site pra ser coletado não tem o que fazer (poderia ser questão de acionar a prefeitura para cobrar corrija isso no site dela). Da parte da raspagem, o que tinha para ser coletado, foi.
Boa tarde @trevineju , desculpa te pingar, mas você é a minha única referência aqui.
Pode pingar, tô aqui pra isso! (: temos um discord tb, https://go.ok.org.br/discord, que tem um canal para conversar sobre raspadores que outras pessoas também respondem. Porém, prefiro quando fazem como vc e conversam aqui na issue ou no PR, fica mais contextualizado.
Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '6'
Se você pesquisar no log por "ERROR" vai achar 6 casos. Um deles é:
2024-05-09 13:01:50 [scrapy.pipelines.files] WARNING: File (code: 404): Error downloading file from <GET http://portal.guaratuba.pr.gov.br/images/oficial2014/332.pdf> referred in
O log está informando que estas 6 edições não foram coletadas. Tem que investigar esses casos. Olhei esse primeiro e parece que o arquivo da edição 332 (29/08/14) não existe no site justificando ter dado 404.
Tem que ir conferir os 5 demais, porém nesse caso, parece que não tem nada de errado. Pro raspador é um erro pq ele espera coletar o arquivo e não acha; mas se o arquivo não existe no site pra ser coletado não tem o que fazer (poderia ser questão de acionar a prefeitura para cobrar corrija isso no site dela). Da parte da raspagem, o que tinha para ser coletado, foi.
Entendi. E é isso mesmo, fui no site do diário oficial, no ano de 2014 na edição 332 e o link está quebrado. Vou conferir as outras ocerrências para ter certeza se é o mesmo problema. Muito Obrigado.
De fato, os erros apresentados foram devidos ao links quebrados na página do diário. Por este motivo, não há muito a ser feito neste escopo. Talvez notificar de alguma forma o mantenedor do sistemas. Mas pra essa task acredito que seria esse o PR mesmo.
Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
URL da forma de consulta
http://portal.guaratuba.pr.gov.br/diariosoficiais
Período de publicação
Formato da publicação
Os diários oficiais são publicados em PDF (texto)
Conteúdo da publicação
Diário único: documento publicado é uma edição completa do diário oficial
Detalhes do site de publicação
No response
Observações
No response
Evidências
ultima pr_guaratuba_2024-05-07.csv pr_guaratuba_2024-05-07.log
janeiro/2010 - hoje pr_guaratuba_2010-01-01_today.csv pr_guaratuba_2010-01-01_today.log
Intervalo: 2016-12-13 a 2016-12-15 pr_guaratuba_2016-12-13_2016-12-15.csv pr_guaratuba_2016-12-13_2016-12-15.log