okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.04k stars 384 forks source link

[Novo spider]: Guaratuba-PR #1138 #1142

Open talesmota opened 1 month ago

talesmota commented 1 month ago

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

Código da(s) spider(s)

Testes

Verificações

Descrição

URL da forma de consulta

http://portal.guaratuba.pr.gov.br/diariosoficiais

Período de publicação
Formato da publicação

Os diários oficiais são publicados em PDF (texto)

Conteúdo da publicação

Diário único: documento publicado é uma edição completa do diário oficial

Detalhes do site de publicação

No response

Observações

No response

Evidências
talesmota commented 1 month ago

Boa tarde @trevineju , desculpa te pingar, mas você é a minha única referência aqui. Mas quando eu rodei o spider para todo o período ele apresentou o um erro, o mesmo que foi relato na issue 869. Eu não tenho ideia de como debugar esse erro, apesar que não ter interferido no processo e os arquivos terem sido baixados corretamente e o csv ter sido gerado normalmente.

O log do erro é esse aqui.. E o erro apresentado é o que segue, _Item Validation Monitor/test_statmonitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '6'

trevineju commented 1 month ago

Boa tarde @trevineju , desculpa te pingar, mas você é a minha única referência aqui.

Pode pingar, tô aqui pra isso! (:
temos um discord tb, https://go.ok.org.br/discord, que tem um canal para conversar sobre raspadores que outras pessoas também respondem. Porém, prefiro quando fazem como vc e conversam aqui na issue ou no PR, fica mais contextualizado.

Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '6'

Se você pesquisar no log por "ERROR" vai achar 6 casos. Um deles é:

2024-05-09 13:01:50 [scrapy.pipelines.files] WARNING: File (code: 404): Error downloading file from <GET http://portal.guaratuba.pr.gov.br/images/oficial2014/332.pdf> referred in

O log está informando que estas 6 edições não foram coletadas. Tem que investigar esses casos. Olhei esse primeiro e parece que o arquivo da edição 332 (29/08/14) não existe no site justificando ter dado 404.

Tem que ir conferir os 5 demais, porém nesse caso, parece que não tem nada de errado. Pro raspador é um erro pq ele espera coletar o arquivo e não acha; mas se o arquivo não existe no site pra ser coletado não tem o que fazer (poderia ser questão de acionar a prefeitura para cobrar corrija isso no site dela). Da parte da raspagem, o que tinha para ser coletado, foi.

talesmota commented 1 month ago

Boa tarde @trevineju , desculpa te pingar, mas você é a minha única referência aqui.

Pode pingar, tô aqui pra isso! (: temos um discord tb, https://go.ok.org.br/discord, que tem um canal para conversar sobre raspadores que outras pessoas também respondem. Porém, prefiro quando fazem como vc e conversam aqui na issue ou no PR, fica mais contextualizado.

Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '6'

Se você pesquisar no log por "ERROR" vai achar 6 casos. Um deles é:

2024-05-09 13:01:50 [scrapy.pipelines.files] WARNING: File (code: 404): Error downloading file from <GET http://portal.guaratuba.pr.gov.br/images/oficial2014/332.pdf> referred in

O log está informando que estas 6 edições não foram coletadas. Tem que investigar esses casos. Olhei esse primeiro e parece que o arquivo da edição 332 (29/08/14) não existe no site justificando ter dado 404.

Tem que ir conferir os 5 demais, porém nesse caso, parece que não tem nada de errado. Pro raspador é um erro pq ele espera coletar o arquivo e não acha; mas se o arquivo não existe no site pra ser coletado não tem o que fazer (poderia ser questão de acionar a prefeitura para cobrar corrija isso no site dela). Da parte da raspagem, o que tinha para ser coletado, foi.

Entendi. E é isso mesmo, fui no site do diário oficial, no ano de 2014 na edição 332 e o link está quebrado. Vou conferir as outras ocerrências para ter certeza se é o mesmo problema. Muito Obrigado.

talesmota commented 4 weeks ago

De fato, os erros apresentados foram devidos ao links quebrados na página do diário. Por este motivo, não há muito a ser feito neste escopo. Talvez notificar de alguma forma o mantenedor do sistemas. Mas pra essa task acredito que seria esse o PR mesmo.