Open josircg opened 1 year ago
O resultado do teste mostrou que a biblioteca newspaper consegue filtrar muito do texto considerado lixo mas não todo. Assim, iremos partir para a solução da criação de uma base de regras a partir das notícias já revisadas.
Vamos manter a issue aberta para futuramente calcular o índice de similaridade médio para cada tipo de fonte de notícias.
Atualmente, a rotina que captura do texto da página traz muito lixo, como opções de menu, propaganda e outras área da página não relacionadas a notícia em questão e o usuário deve fazer a remoção manualmente.
Podemos testar 2 bibliotecas antes de construir nosso próprio algoritmo:
1) https://github.com/codelucas/newspaper
2) https://github.com/misja/python-boilerpipe
Para fazer o teste, crie um novo branch a partir do feature e crie um management que irá ler uma notícia já revisada pelo usuário (Noticia.revisado=True), aplique a função da biblioteca newspaper e verifique quão próximas estão.
Para testar se os textos são similares, vocês pode utilizar a função de levenshtein:
https://www.statology.org/levenshtein-distance-in-python/