Feature - Novo spider para São Carlos, SP

Closes #405

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

[X] O layout não se parece com nenhum caso da lista de layouts padrão
[ ] É um layout padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão.
[ ] É um layout padrão e todos os municípios adicionados usam a classe de spider base adequada para o padrão.

Código da(s) spider(s)

[x] O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
[X] O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
[X] O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
[X] Explicitar o atributo de classe end_date não se fez necessário.
[X] Não utilizo custom_settings em meu raspador.

Testes

[X] Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
[X] Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
[X] Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.

completa.csv completa.log intervalo.csv intervalo.log ultima.log

Verificações

[X] Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
[X] Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
[X] Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Descrição

O código extrai o diário oficial da cidade de São Carlos, SP. O layout é simples, sem usar ids ou classes, então atributos css e regex são usados para localizar os elementos e extrair o texto com facilidade. Não há muita consistência no layout ou na estrutura do texto com o passar do tempo, então o código realiza algumas tentativas com diferentes métodos.

Esse spider usa beautifulsoup4, por ser muito mais fácil e simples de usar do que somente o scrapy nesse caso.

okfn-brasil / querido-diario