okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.11k stars 411 forks source link

Feature/to tupirama #1303

Closed kalkrop closed 1 month ago

kalkrop commented 1 month ago

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

Código da(s) spider(s)

Testes

Verificações

Descrição

Esse Pull Request adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão. Neste caso, BARCO.

Resultados dos testes: to_tupirama_completa.csv to_tupirama_completa.log to_tupirama_intervalo.csv to_tupirama_intervalo.log to_tupirama_ultima_edicao.log

trevineju commented 1 month ago

Boa, @kalkrop! Parabéns pela primeira PR no QD!

Uma boberinha:

  • [x] É um layout padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão.
  • [ ] É um layout padrão e todos os municípios adicionados usam a classe de spider base adequada para o padrão.

Nesse caso, o check era na de baixo. Sua PR não está adicionando a spider base Barco, está adicionando um município que usa a spider base Barco.

Testes adicionados

Olhei eles e parecem ok! Os dados mais curiosos são (usando a coleta completa de referência):

'downloader/response_status_count/500': 15, 'item_dropped_count': 5, 'spidermon/validation/fields/errors/field_too_short': 5, 'spidermon/validation/fields/errors/field_too_short/files': 5, 'spidermon/validation/items/dropped': 5,

O que quer dizer que 5 documentos foram abandonados. Conferi eles (buscando pela aparição de (500) no log e realmente as URLs estão dando problema no site.

'spider_exceptions/AttributeError': 1,

Buscando por AttributeError indica que tentar acessar https://api-tupirama.barcodigital.com.br/api/publico/diario/calendario?mes=7&ano=2018 dá erro. E realmente para Julho 2018 não tem diários no site (:O)

Assim, tá tudo certo com o raspador em si (os problemas não são nossos)