Para o Querido Diário ter os municípios da Associação de Municípios do Ceará é necessário:
✅: Ter o raspador para coletar os documentos no site da associação
Pendente: Ter, neste repositório, o segmentador para tratar os arquivos, fatiando um documento agregado em partes individuais para cada um dos municípios da associação
Tarefa
Esta associação usa um padrão conhecido e já em uso no repositório para a Associação de Alagoas. Então o caminho de implementação já existe, faltando criar o segmentador específico.
Será necessário executar o raspador da associação para processar os documentos. Para isso, configure o repositório de raspadores e o data-processing de acordo com a documentação de configuração de ponta-a-ponta do QD.
Seu parser deve ser capaz de segmentar cada documento por prefeitura (atos de consórcios, associações, etc. devem ser ignorados por enquanto) e gerar novos arquivos .txt para cada uma.
Valide se os arquivos .txt gerados correspondem à segmentação esperada utilizando amostras.
Para o Querido Diário ter os municípios da Associação de Municípios do Ceará é necessário:
Tarefa
Esta associação usa um padrão conhecido e já em uso no repositório para a Associação de Alagoas. Então o caminho de implementação já existe, faltando criar o segmentador específico.
Modificações necessárias
territory_to_segmenter_class
do arquivo factory.py usando o mesmoTERRITORY_ID
do raspador.Como testar
Será necessário executar o raspador da associação para processar os documentos. Para isso, configure o repositório de raspadores e o data-processing de acordo com a documentação de configuração de ponta-a-ponta do QD.
Seu parser deve ser capaz de segmentar cada documento por prefeitura (atos de consórcios, associações, etc. devem ser ignorados por enquanto) e gerar novos arquivos
.txt
para cada uma.Valide se os arquivos
.txt
gerados correspondem à segmentação esperada utilizando amostras.