Closed AlexJBSilva closed 9 months ago
@AlexJBSilva, será que ao invés de enviar uma PR pra main
, você não conseguiria enviar pra branch class-mapeador
?
Aliás, não tem problema o mapeador não estar excelente. Você tem o arquivo de mapeamento que ele gerou? Das cidades contempladas?
@AlexJBSilva, será que ao invés de enviar uma PR pra
main
, você não conseguiria enviar pra branchclass-mapeador
?
@trevineju, eu abri o PR para a branch class-mapeador
.
Está aparecendo para você algo diferente do que está aqui (print abaixo)?
Aliás, não tem problema o mapeador não estar excelente. Você tem o arquivo de mapeamento que ele gerou? Das cidades contempladas?
Tenho o arquivo de mapeamento sim. :)
dados_mapeamento_20231123.csv
Aviso: o csv.DictWriter()
salvou o arquivo com ANSI
aqui no Windows, ao invés de UTF-8
.
Atualiza o mapeador para 'mitigar' o problema de vincular a URL na cidade errada:
.gov.br
encontrada em algumas páginas, extrai o nome da cidade e a sigla do estado e insere como lista logo após a URL de origem da informação.Extrai todos os links para 'diario' e insere logo após a URL da página de origem da informação. Assim fica mais fácil identificar os links válidos para o D.O. da cidade.
/?pg=diariooficial
, Gravataí /diariooficial/edicao
/cidadao/pagina/diario-oficial
.csv
com o resultado: dados_mapeamento_20231124_atende.csv
.xlsx
incluindo a validação manual se o estado / cidade onde as urls foram vinculadas estão corretos: dados_mapeamento_20231124_atende.xlsx
Obrigada pela PR, @AlexJBSilva!
Implementa a sugestão apresentada em 919 (comment)
Por não ser um domínio governamental (diferente de
.{uf}.gov.br
), apresenta o problema conhecido:encontra URLs de interesse, mas vincula na cidade errada
.Considerações sobre desempenho:
Ao retirar o
http
dos protocolos de mapeamento e não tentar mapear o link 'base' para a página de cada município{protocol}://{city}.atende.net
, o tempo para mapear 500 cidades (tempo entre backups parciais) foi reduzido de 2h40min para 25 minutos.AO ABRIR um Pull Request de um novo raspador (spider), marque com um
X
cada um dos items do checklist abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.Checklist - Novo Mapeador
log_count/ERROR
igual a zero). [ N.A.: Não se aplica, pois ALGUNS erros são esperados no processo de mapeamento. ]Descrição
Adiciona mapeador ATENDE Amplia solução para #919