[X] Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
[X] Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
[X] Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.
Descrição
O código extrai o diário oficial da cidade de São Carlos, SP. O layout é simples, sem usar ids ou classes, então atributos css e regex são usados para localizar os elementos e extrair o texto com facilidade. Não há muita consistência no layout ou na estrutura do texto com o passar do tempo, então o código realiza algumas tentativas com diferentes métodos.
Esse spider usa beautifulsoup4, por ser muito mais fácil e simples de usar do que somente o scrapy nesse caso.
Closes #405
Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.completa.csv completa.log intervalo.csv intervalo.log ultima.log
Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
O código extrai o diário oficial da cidade de São Carlos, SP. O layout é simples, sem usar ids ou classes, então atributos css e regex são usados para localizar os elementos e extrair o texto com facilidade. Não há muita consistência no layout ou na estrutura do texto com o passar do tempo, então o código realiza algumas tentativas com diferentes métodos.
Esse spider usa beautifulsoup4, por ser muito mais fácil e simples de usar do que somente o scrapy nesse caso.