okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.11k stars 411 forks source link

Feature - Novo spider para São Carlos, SP #1300

Open vinikuhlmann opened 1 month ago

vinikuhlmann commented 1 month ago

Closes #405

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

Código da(s) spider(s)

Testes

completa.csv completa.log intervalo.csv intervalo.log ultima.log

Verificações

Descrição

O código extrai o diário oficial da cidade de São Carlos, SP. O layout é simples, sem usar ids ou classes, então atributos css e regex são usados para localizar os elementos e extrair o texto com facilidade. Não há muita consistência no layout ou na estrutura do texto com o passar do tempo, então o código realiza algumas tentativas com diferentes métodos.

Esse spider usa beautifulsoup4, por ser muito mais fácil e simples de usar do que somente o scrapy nesse caso.