Adiciona spider base para o sistema replicável Atende, e spiders derivados para as cidades com D.O.s nesse sistema.

Checklist - Novo spider

[x] Você executou uma extração completa do spider localmente e os dados retornados estavam corretos.
[x] Você executou uma extração por período (start_date e end_date definidos) ao menos uma vez e os dados retornados estavam corretos.
[x] Você verificou que não existe nenhum erro nos logs (log_count/ERROR igual a zero).
[x] Você definiu o atributo de classe start_date no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.
[x] Você garantiu que todos os campos que poderiam ser extraídos foram extraídos de acordo com a documentação.

Descrição

Adiciona o spider base para o sistema replicável Atende, e os spiders derivados para as cidades com D.O.s nesse sistema. Através do mapeador ATENDE (PR #1043), foram identificadas 34 cidades com Diários Oficiais disponíveis.

Esse sistema apresenta 2 layouts de página: layout Tipo 1 e layout Tipo 2.

Tipo 1: 4 cidades

id	name	state_code	observação
4303103	Cachoeirinha	RS	Spider ainda não foi testado.
4303509	Camaquã	RS	Spider ainda não foi testado. Resolve #1038.
4311304	Lagoa Vermelha	RS	Realizando ajustes na Classe Spider Base T1 devido à falta de padrão nos links do site dessa cidade.
~~3552403~~	~~Sumaré~~	SP	Não precisa de um novo spider.

Sumaré já possui um spider funcional e não precisará de um novo spider, pois os diários no sistema Atende (layout Tipo 1) não possuem todos os metadados (inclusive data de publicação).

Tipo 2: 30 cidades

id	name	state_code	observação
4101408	Apucarana	PR	Spider ainda não foi testado.
4201307	Araquari	SC	Spider ainda não foi testado.
4101804	Araucária	PR	Log: pr_araucaria.log CSV: pr_araucaria.csv
4302105	Bento Gonçalves	RS	Spider ainda não foi testado.
4104204	Campo Largo	PR	Spider ainda não foi testado.
4104303	Campo Mourão	PR	Log: pr_campo_mourao.log CSV: pr_campo_mourao.csv
4304200	Candelária	RS	Spider ainda não foi testado.
3114501	Carmópolis de Minas	MG	Spider ainda não foi testado.
4104907	Castro	PR	Spider ainda não foi testado.
4105706	Clevelândia	PR	Spider ainda não foi testado.
4106308	Corbélia	PR	Spider ainda não foi testado.
4306403	Dois Irmãos	RS	Spider ainda não foi testado.
4307807	Estrela	RS	Spider ainda não foi testado.
4309209	Gravataí	RS	Log: rs_gravatai.log CSV: rs_gravatai.csv
4109302	Guaraniaçu	PR	Spider ainda não foi testado.
4309605	Horizontina	RS	Spider ainda não foi testado.
4112959	Juranda	PR	Spider ainda não foi testado.
4209508	Laurentino	SC	Spider ainda não foi testado.
4114005	Mamborê	PR	Spider ainda não foi testado.
3145604	Oliveira	MG	Spider ainda não foi testado.
4117453	Ouro Verde do Oeste	PR	Spider ainda não foi testado.
4313904	Panambi	RS	Spider ainda não foi testado.
4119152	Pinhais	PR	Spider ainda não foi testado.
4122206	Rio Branco do Sul	PR	Spider ainda não foi testado.
4317202	Santa Rosa	RS	Spider ainda não foi testado.
4124103	Santo Antônio da Platina	PR	Spider ainda não foi testado.
4318432	São João do Polêsine	RS	Spider ainda não foi testado.
4320701	Sobradinho	RS	Spider ainda não foi testado.
4127957	Tupãssi	PR	Spider ainda não foi testado.
4118451	Pato Bragado	PR	Spider ainda não foi testado.

Dos testes realizados com Araucária, Campo Mourão e Gravataí:

Araucária: a Edição 475 de 2013-09-17 está ausente. Página da edição..
Campo Mourão: as Edições 1658 de 2013-09-17, 1802 de 2015-03-18, 1874 de 2015-09-10, 1981 de 2016-05-02 e 2074 de 2016-12-06 estão ausentes.
Gravataí: OK.

Extra: Automatizando a criação de Spiders derivados.

Seguindo a dica da @trevineju, fiz o script abaixo para criar os spiders utilizando o arquivo cidades_atende_t2.csv com as infomações de configuração:

# script.py
import csv
from datetime import datetime
from pathlib import Path

from unidecode import unidecode

class SpiderBuilder:
    def read_csv(self, file):
        rows = []
        with open(file, "r", encoding="utf-8") as csvfile:
            reader = csv.DictReader(csvfile)
            for row in reader:
                rows.append(row)
        csvfile.close()
        return rows

    def format_str(self, name, state_code):
        name = unidecode(name).strip().lower().replace("-", " ").replace("'", "")
        state_code = unidecode(state_code).strip().lower()
        return name, state_code

    def blankspaces_to_underline(self, name):
        return name.replace(" ", "_")

    def to_pascal_case(self, name):
        return "".join(word for word in name.title() if not word.isspace())

    def get_spider_config(
        self, id, spider_name, class_name, start_date, city_subdomain, start_edition
    ):
        return f"""from datetime import date

from gazette.spiders.base.atende import BaseAtendeT2Spider

class {class_name}Spider(BaseAtendeT2Spider):
    TERRITORY_ID = "{id}"
    name = "{spider_name}"
    start_date = date({start_date.year}, {start_date.month}, {start_date.day})  # Edição {start_edition}
    city_subdomain = "{city_subdomain}"
"""

    def write_file(self, spider_name, spider_content):
        spiders_folder = Path("../gazette/spiders/")
        spider_path = spiders_folder.joinpath(
            spider_name.split("_", 1)[0], spider_name
        ).with_suffix(".py")
        # print (spider_path.resolve().absolute())
        # print (spider_content)
        with open(spider_path, "w", encoding="utf-8") as f:
            f.write(spider_content)

    def spider_from_cfg(self, config):
        name, state_code = self.format_str(config["name"], config["state_code"])
        state_plus_name = f"{state_code} {name}"
        spider_name = self.blankspaces_to_underline(state_plus_name)
        class_name = self.to_pascal_case(state_plus_name)
        start_date = datetime.strptime(config["start_date"], "%d/%m/%Y")
        content = self.get_spider_config(
            config["id"],
            spider_name,
            class_name,
            start_date,
            config["city_subdomain"],
            config["start_edition"],
        )
        self.write_file(spider_name, content)

if __name__ == "__main__":
    csv_file = "cidades_atende_t2.csv"
    sb = SpiderBuilder()
    spiders_cfg = sb.read_csv(csv_file)

    for config in spiders_cfg:
        sb.spider_from_cfg(config)

Para usar:

Salve o script e o arquivo cidades_atende_t2.csv na pasta data: querido-diario/data_collection/data;
Navegue até a pasta cd querido-diario/data_collection/data e execute o script python script.py.

@AlexJBSilva muito obrigada pela PR!

Sei que ainda estava em rascunho, porém, tendo em vista as enchentes no Rio Grande do Sul, fizemos um esforço de priorizar a adição de municípios de lá e esta PR tem vários. Por isso, tomei a liberdade de seguir a partir de onde você parou.

Aqui você adiciona duas novas classes base e, como o "Layout 2" estava mais desenvolvido (você até anexou testes, enquanto o "Layout 1" não) e tem uma cobertura maior de municípios do RS, foquei nele.

Fiz uma PR (#1145) que puxa suas contribuições daqui e as finaliza lá. Optei por fazer isso e não revisar aqui pois, como disse acima, queria reduzir o escopo pra um sistema só por vez sem jogar fora o que você já tinha começado aqui (não queria perder o "Layout 1" e os demais municípios que já estão aqui).

Como acabei revisando vou deixar alguns feedbacks, mas mesmo eu não tenho certeza se precisa (visto que ainda era rascunho, pode ser só que você ia ajustar depois)

Não precisa deixar um município por commit quando for essa situação de municípios padronizados. Pode adicionar vários em um só.
Sei que não tínhamos outro caso para você se espelhar, mas não deixamos duas classes em um único arquivo. Adotei atende_layoutdois.py na minha revisão. Confesso que não sei se é um bom nome pro arquivo em si, porém ficou separado em dois (deixando sugestivo que o outro vai ser atende_layoutum.py), que é o que precisa.
Você estava deixando parâmetros de requisição hardcoded na URL, como em /atende.php?rot=54015&aca=101&ajax=t&processo=loadPluginDiarioOficial e &parametro=%7B%22codigoPlugin%22%3A1,%22filtroPlugin%22%3A%7B%22pagina%22%3A%22{page}%22%7D%7D" Costumamos a usar o parâmetro formdata + requisição scrapy.FormRequest nesses casos.
(e mais importante) Estava caminhando muito bem ❤️ Fora alguns detalhes de organização (tanto é que meus 2 dos 3 feedbacks acima eram mais questão de organização mesmo), as ordem das requisições e as lógicas de coleta dos metadados tavam ótimas.

Você deixou alguns ifs de verificações mas não cai em nenhum caso que precisasse, por isso tirei. Porém, eu foquei em 10 municípios e você tava adicionando 30. Pode ser algum caso que ainda iria aparecer, mas podemos ter uma dinâmica incremental, de ir adicionando melhorias na base conforme formos cobrindo mais casos.

Muito obrigada pela contribuição

okfn-brasil / querido-diario