Open trevineju opened 3 months ago
Vou puxar essa issue. Acho que já vale a pena criar um spider base pra esse sistema Gespam Web.
@trevineju eu vi que podem existir 3 tipos de publicação nesse sistema: SUPLEMENTAR
, ORDINÁRIA
e ORDINÁRIA - CAMARA
(acredito que também pode haver um SUPLEMENTAR - CAMARA
, apesar de eu não ter encontrado).
Pode me dar uma orientação sobre como seria essa captura? (acredito que seria como na tabela abaixo)
Categoria | Objeto gerado |
---|---|
ORDINÁRIA |
Gazette(is_extra_edition=False, power="executive", ...) |
SUPLEMENTAR |
Gazette(is_extra_edition=True, power="executive", ...) |
ORDINÁRIA - CAMARA |
Gazette(is_extra_edition=False, power="executive_legislative", ...) |
SUPLEMENTAR - CAMARA |
Gazette(is_extra_edition=True, power="executive_legislative", ...) |
Vou puxar essa issue. Acho que já vale a pena criar um spider base pra esse sistema Gespam Web.
Isso seria ótimo, você conseguiu achar outros casos? Temos integrado spider bases a partir de 2 casos.
Pode me dar uma orientação sobre como seria essa captura?
Pode classificar como "legislative" mesmo. Temos alguns casos que fazem isso já, por exemplo a base adiarios_v1. E o esquema de validação permite o campo power
ser "legislative" também.
Não é o foco de integração do projeto no momento, mas nesses casos em que os documentos estão misturados, vale a pena já coletar.
Então, tá show a tabela, só muda as duas últimas linhas.
Categoria | Objeto gerado |
---|---|
ORDINÁRIA - CAMARA |
Gazette(is_extra_edition=False, power="legislative", ...) |
SUPLEMENTAR - CAMARA |
Gazette(is_extra_edition=True, power="legislative", ...) |
Você conseguiu achar outros casos?
Ainda não, mas vou dar uma olhadinha. Pq já podemos integrar vários de uma vez só.
Então, tá show a tabela, só muda as duas últimas linhas.
Blz. Tudo bem fazer o scrapping de todas as categorias mesmo, então?
Ainda não, mas vou dar uma olhadinha. Pq já podemos integrar vários de uma vez só.
Puxei aqui que @ayharano achou vários casos usando um formato de pesquisa no google. Dá uma tentada nisso!
Blz. Tudo bem fazer o scrapping de todas as categorias mesmo, então?
Pode dale
URL da forma de consulta
https://transparencia.abase.com.br/diario-oficial/3Qbz33YASiE=
Período de publicação
11/07/2024
Formato da publicação
Os diários oficiais são publicados em PDF (texto)
Conteúdo da publicação
Diário único: documento publicado é uma edição completa do diário oficial
Detalhes do site de publicação
Possui paginação, Possui filtro por data
Observações
O raspador para rs_bento_goncalves.py não está mais coletando diários em produção devido o site ter mudado. É necessário sobreescrever o código para coletar a partir da URL cadastrada na issue.
Não existe uma issue aberta para esse município