larhud / timeline

Sistema para gerenciamento de timelines
2 stars 1 forks source link

Novo algoritmo para coletar apenas o texto da notícia #37

Open josircg opened 1 year ago

josircg commented 1 year ago

Atualmente, a rotina que captura do texto da página traz muito lixo, como opções de menu, propaganda e outras área da página não relacionadas a notícia em questão e o usuário deve fazer a remoção manualmente.

Podemos testar 2 bibliotecas antes de construir nosso próprio algoritmo:

1) https://github.com/codelucas/newspaper

2) https://github.com/misja/python-boilerpipe

Para fazer o teste, crie um novo branch a partir do feature e crie um management que irá ler uma notícia já revisada pelo usuário (Noticia.revisado=True), aplique a função da biblioteca newspaper e verifique quão próximas estão.

Para testar se os textos são similares, vocês pode utilizar a função de levenshtein:

https://www.statology.org/levenshtein-distance-in-python/

josircg commented 1 year ago

O resultado do teste mostrou que a biblioteca newspaper consegue filtrar muito do texto considerado lixo mas não todo. Assim, iremos partir para a solução da criação de uma base de regras a partir das notícias já revisadas.

Vamos manter a issue aberta para futuramente calcular o índice de similaridade médio para cada tipo de fonte de notícias.