okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.06k stars 388 forks source link

São João de Meriti - RJ #961

Closed trevineju closed 7 months ago

trevineju commented 10 months ago

Fase 1: Mapear

Adicionar nesta issue um comentário com:

Fase 2: Desenvolver

Adicionar nesta issue um comentário dizendo se está trabalhando no raspador para esse site

Fase 3: Validar

Ao abrir a PR, você verá uma lista de testes para experimentar. Valide-os.

trevineju commented 10 months ago

Dois layouts de página diferentes URL: https://transparencia.meriti.rj.gov.br/ Tipo: completo Formato: PDF

Primeiro

Período: 02/01/2018 - hoje Informação extra: navegação por ano, mês e então chegar nos diários

Segundo

Período: 30/09/2011 - 28/12/2017 Informação extra: layout muda e talvez o primeiro documento pode ser ignorado (parece um arquivo de teste, só tem a capa)

Winzen commented 10 months ago

Primeiro layout Existe um link que leva para um JSON. O que pode facilitar na criação do raspador. Link: https://transparencia.meriti.rj.gov.br/diario_oficial_get.php Fazendo um request para ele. Você recebe um JSON com todos os diários de 02/01/2018 - hoje Segundo Layout Você pode controlar o recebimento dos diários pelo link: https://meriti.rj.gov.br/dom_mp/201612.php sendo https://meriti.rj.gov.br/dom_mp/{ano}{mês}.php

almeidadm commented 10 months ago

Olá! Vou trabalhar com essa issue!

almeidadm commented 10 months ago

Segundo layout O link de consulta sugerido não está mais ativo. Também não encontrei nenhuma outra informação no domínio https://meriti.rj.gov.br/ que enviasse pra alguma fonte diferente da encontrada no primeiro layout.

Será que é válido consultar o município através de email ou algum suporte de atendimento?

Primeiro layout De fato o link que leva para o JSON é muito útil. O arquivo retorna uma estrutura de JSON similar a essa: {'ANEXO': '6191', 'ANO': 2023, 'Codigo': 4728, 'Codigo_ANEXO': 6527, 'Codigo_ANEXO_MINIATURA': 6528, 'DATA_PUBLICACAO': '2023-10-26 00:00:00.0', 'DESCRICAO': '26/10/2023 6191 ', 'Data_Formatada': '26/10/2023', 'HABILITADO': 'S', 'MES_ANO': '10/2023', 'PAGINA_MINIATURA': 1}

O pdf do boletim pode ser consultado através da URL base https://transparencia.meriti.rj.gov.br/ver20230623/WEB-ObterAnexo.rule?sys=LAI&codigo={Codigo_ANEXO}.

Acontece que na consulta ao site quatro datas nos retornam um valor de Codigo_ANEXO igual a 1 que direciona para uma página vazia. As datas referentes a esse erro são:

'2020-09-11' '2020-03-04' '2020-02-27' '2018-07-19'

Apenas a data de '2018-07-19' não possui outro boletim disponível. Todas as outras tiveram exito em coletar boletim através de outros códigos de anexo encontrados nas consultas.

Qual a melhor maneira de lidar com esse erro próprio do portal? Pensei em definir explicitamente no código que quando Codigo_ANEXO == 1, então ele não consulta este item.

ogecece commented 9 months ago

Perfeito @almeidadm . É isso mesmo :)

ogecece commented 9 months ago

Só adicionando um comentário para a posteridade: 08/09/2021 o arquivo também não pode ser baixado pois o servidor envia uma resposta vazia