[Manutenção] Jaboatão dos Guararapes (PE) - Githubissues

okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.

https://queridodiario.ok.org.br/

MIT License

1.12k stars 411 forks source link

[Manutenção] Jaboatão dos Guararapes (PE) #1052

Open trevineju opened 11 months ago

trevineju commented 11 months ago

O raspador não está mais obtendo arquivos PDFs desde 03/03/2022. E sim o HTML da página.

A maior parte do código do raspador de Jaboatão do Guararapes parece seguir atual.

Tomando de exemplo o dia 07/12/23, o raspador coleta a página intermediária: https://diariooficial.jaboatao.pe.gov.br/07-de-dezembro-de-2023-xxxii-no-233-jaboatao-dos-guararapes/ e produz o seguinte arquivo de coleta: arquivo_baixado_QD.txt

É necessário fazer ajustes nesse código para voltar a coletar os PDFs e reabilitar o raspador no projeto.

ddevdan commented 8 months ago

Converter o HTML para pdf seria uma opção?

almeidadm commented 8 months ago

Conferindo os boletins publicados em site, parece que sempre existe (seja no inicio ou no final da página) uma opção de transformar a página automáticamente num arquivo.

Segue um exemplo do boletim https://diariooficial.jaboatao.pe.gov.br/07-de-dezembro-de-2023-xxxii-no-233-jaboatao-dos-guararapes/

O primeiro ícone nos leva a uma Blob URL/Object URL. Esse documento é um "screenshots" das páginas transformadas em .pdf e parece ter pouca viabilidade na etapa de extração dos dados.

já o segundo nos leva para essa nova formatação de página, que é possivelmente mais útil: https://diariooficial.jaboatao.pe.gov.br/07-de-dezembro-de-2023-xxxii-no-233-jaboatao-dos-guararapes/?print=print

Essas são as alternativas que o diariooficial.jaboatao.pe.gov.br/ parece disponibilizar os boletins como arquivo.

No mais, a navegação do site para buscar os boletins pode ser feita através de caminhos similares a esse https://diariooficial.jaboatao.pe.gov.br/diario-oficial-{ano}/{n-pagina}/

com excessão de 2015 que é apresentada como https://diariooficial.jaboatao.pe.gov.br/diario-oficial-2015-2/