okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.12k stars 411 forks source link

Adiciona mapeador ATENDE #1043

Closed AlexJBSilva closed 9 months ago

AlexJBSilva commented 1 year ago

Implementa a sugestão apresentada em 919 (comment)

NOTA: Link para a página de cada município: https://{city}.atende.net

Por não ser um domínio governamental (diferente de .{uf}.gov.br), apresenta o problema conhecido: encontra URLs de interesse, mas vincula na cidade errada.

Considerações sobre desempenho:

  1. Ao retirar o http dos protocolos de mapeamento e não tentar mapear o link 'base' para a página de cada município {protocol}://{city}.atende.net, o tempo para mapear 500 cidades (tempo entre backups parciais) foi reduzido de 2h40min para 25 minutos.

AO ABRIR um Pull Request de um novo raspador (spider), marque com um X cada um dos items do checklist abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.

Checklist - Novo Mapeador

Descrição

Adiciona mapeador ATENDE Amplia solução para #919

trevineju commented 1 year ago

@AlexJBSilva, será que ao invés de enviar uma PR pra main, você não conseguiria enviar pra branch class-mapeador?

trevineju commented 1 year ago

Aliás, não tem problema o mapeador não estar excelente. Você tem o arquivo de mapeamento que ele gerou? Das cidades contempladas?

AlexJBSilva commented 1 year ago

@AlexJBSilva, será que ao invés de enviar uma PR pra main, você não conseguiria enviar pra branch class-mapeador?

@trevineju, eu abri o PR para a branch class-mapeador. Está aparecendo para você algo diferente do que está aqui (print abaixo)?

Print do PR para a branch certa


Aliás, não tem problema o mapeador não estar excelente. Você tem o arquivo de mapeamento que ele gerou? Das cidades contempladas?

Tenho o arquivo de mapeamento sim. :) dados_mapeamento_20231123.csv Aviso: o csv.DictWriter() salvou o arquivo com ANSI aqui no Windows, ao invés de UTF-8.

AlexJBSilva commented 1 year ago

Atualiza o mapeador para 'mitigar' o problema de vincular a URL na cidade errada:

  1. Aproveitando a informação de email .gov.br encontrada em algumas páginas, extrai o nome da cidade e a sigla do estado e insere como lista logo após a URL de origem da informação.
  2. Como teste, também extrai o nome da cidade e a sigla do estado do bloco de mapa/endereço (tem pelo menos mais uma variante de modelo de classe nas páginas que não está sendo extraída).

Extrai todos os links para 'diario' e insere logo após a URL da página de origem da informação. Assim fica mais fácil identificar os links válidos para o D.O. da cidade.


Destaques

  1. Camaquã: /cidadao/pagina/diario-oficial

Arquivos

trevineju commented 9 months ago

Obrigada pela PR, @AlexJBSilva!