Novo algoritmo para coletar apenas o texto da notícia

Atualmente, a rotina que captura do texto da página traz muito lixo, como opções de menu, propaganda e outras área da página não relacionadas a notícia em questão e o usuário deve fazer a remoção manualmente.

Podemos testar 2 bibliotecas antes de construir nosso próprio algoritmo:

1) https://github.com/codelucas/newspaper

2) https://github.com/misja/python-boilerpipe

Para fazer o teste, crie um novo branch a partir do feature e crie um management que irá ler uma notícia já revisada pelo usuário (Noticia.revisado=True), aplique a função da biblioteca newspaper e verifique quão próximas estão.

Para testar se os textos são similares, vocês pode utilizar a função de levenshtein:

https://www.statology.org/levenshtein-distance-in-python/

larhud / timeline

Novo algoritmo para coletar apenas o texto da notícia #37