okfn-brasil / querido-diario-data-processing

Text processing repository to free brazilian municipal gazettes from closed file formats for the Querido Diário project.
MIT License
20 stars 17 forks source link

Adicionar segmentador para o diário da Associação de Municípios do Ceará #91

Open trevineju opened 1 month ago

trevineju commented 1 month ago

Para o Querido Diário ter os municípios da Associação de Municípios do Ceará é necessário:

Tarefa

Esta associação usa um padrão conhecido e já em uso no repositório para a Associação de Alagoas. Então o caminho de implementação já existe, faltando criar o segmentador específico.

Modificações necessárias

  1. No diretório segmentation/segmenters/, criar um novo segmentador, que implementa o segmentador base AssociationSegmenter, como faz o al_associacao_municipios.py
  2. Adicionar um novo item em territory_to_segmenter_class do arquivo factory.py usando o mesmo TERRITORY_ID do raspador.

Como testar

Será necessário executar o raspador da associação para processar os documentos. Para isso, configure o repositório de raspadores e o data-processing de acordo com a documentação de configuração de ponta-a-ponta do QD.

Seu parser deve ser capaz de segmentar cada documento por prefeitura (atos de consórcios, associações, etc. devem ser ignorados por enquanto) e gerar novos arquivos .txt para cada uma.

Valide se os arquivos .txt gerados correspondem à segmentação esperada utilizando amostras.