Open trevineju opened 11 months ago
Converter o HTML para pdf seria uma opção?
Conferindo os boletins publicados em site, parece que sempre existe (seja no inicio ou no final da página) uma opção de transformar a página automáticamente num arquivo.
Segue um exemplo do boletim https://diariooficial.jaboatao.pe.gov.br/07-de-dezembro-de-2023-xxxii-no-233-jaboatao-dos-guararapes/
O primeiro ícone nos leva a uma Blob URL/Object URL. Esse documento é um "screenshots" das páginas transformadas em .pdf e parece ter pouca viabilidade na etapa de extração dos dados.
já o segundo nos leva para essa nova formatação de página, que é possivelmente mais útil: https://diariooficial.jaboatao.pe.gov.br/07-de-dezembro-de-2023-xxxii-no-233-jaboatao-dos-guararapes/?print=print
Essas são as alternativas que o diariooficial.jaboatao.pe.gov.br/ parece disponibilizar os boletins como arquivo.
No mais, a navegação do site para buscar os boletins pode ser feita através de caminhos similares a esse https://diariooficial.jaboatao.pe.gov.br/diario-oficial-{ano}/{n-pagina}/
com excessão de 2015 que é apresentada como https://diariooficial.jaboatao.pe.gov.br/diario-oficial-2015-2/
O raspador não está mais obtendo arquivos PDFs desde 03/03/2022. E sim o HTML da página.
A maior parte do código do raspador de Jaboatão do Guararapes parece seguir atual.
Tomando de exemplo o dia 07/12/23, o raspador coleta a página intermediária: https://diariooficial.jaboatao.pe.gov.br/07-de-dezembro-de-2023-xxxii-no-233-jaboatao-dos-guararapes/ e produz o seguinte arquivo de coleta: arquivo_baixado_QD.txt
É necessário fazer ajustes nesse código para voltar a coletar os PDFs e reabilitar o raspador no projeto.