okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.11k stars 409 forks source link

[Manutenção] Novo raspador para Bento Gonçalves-RS #1239

Open trevineju opened 3 months ago

trevineju commented 3 months ago

URL da forma de consulta

https://transparencia.abase.com.br/diario-oficial/3Qbz33YASiE=

Período de publicação

11/07/2024

Formato da publicação

Os diários oficiais são publicados em PDF (texto)

Conteúdo da publicação

Diário único: documento publicado é uma edição completa do diário oficial

Detalhes do site de publicação

Possui paginação, Possui filtro por data

Observações

O raspador para rs_bento_goncalves.py não está mais coletando diários em produção devido o site ter mudado. É necessário sobreescrever o código para coletar a partir da URL cadastrada na issue.

Não existe uma issue aberta para esse município

jjpaulo2 commented 1 month ago

Vou puxar essa issue. Acho que já vale a pena criar um spider base pra esse sistema Gespam Web.

jjpaulo2 commented 1 month ago

@trevineju eu vi que podem existir 3 tipos de publicação nesse sistema: SUPLEMENTAR, ORDINÁRIA e ORDINÁRIA - CAMARA (acredito que também pode haver um SUPLEMENTAR - CAMARA, apesar de eu não ter encontrado).

Pode me dar uma orientação sobre como seria essa captura? (acredito que seria como na tabela abaixo)

Categoria Objeto gerado
ORDINÁRIA Gazette(is_extra_edition=False, power="executive", ...)
SUPLEMENTAR Gazette(is_extra_edition=True, power="executive", ...)
ORDINÁRIA - CAMARA Gazette(is_extra_edition=False, power="executive_legislative", ...)
SUPLEMENTAR - CAMARA Gazette(is_extra_edition=True, power="executive_legislative", ...)
trevineju commented 1 month ago

Vou puxar essa issue. Acho que já vale a pena criar um spider base pra esse sistema Gespam Web.

Isso seria ótimo, você conseguiu achar outros casos? Temos integrado spider bases a partir de 2 casos.

Pode me dar uma orientação sobre como seria essa captura?

Pode classificar como "legislative" mesmo. Temos alguns casos que fazem isso já, por exemplo a base adiarios_v1. E o esquema de validação permite o campo power ser "legislative" também.

Não é o foco de integração do projeto no momento, mas nesses casos em que os documentos estão misturados, vale a pena já coletar.

Então, tá show a tabela, só muda as duas últimas linhas.

Categoria Objeto gerado
ORDINÁRIA - CAMARA Gazette(is_extra_edition=False, power="legislative", ...)
SUPLEMENTAR - CAMARA Gazette(is_extra_edition=True, power="legislative", ...)
jjpaulo2 commented 1 month ago

Você conseguiu achar outros casos?

Ainda não, mas vou dar uma olhadinha. Pq já podemos integrar vários de uma vez só.

Então, tá show a tabela, só muda as duas últimas linhas.

Blz. Tudo bem fazer o scrapping de todas as categorias mesmo, então?

trevineju commented 1 month ago

Ainda não, mas vou dar uma olhadinha. Pq já podemos integrar vários de uma vez só.

Puxei aqui que @ayharano achou vários casos usando um formato de pesquisa no google. Dá uma tentada nisso!

Blz. Tudo bem fazer o scrapping de todas as categorias mesmo, então?

Pode dale