Open henricazottes opened 2 years ago
Sur la branche downloader, ça crée des ".txt".
Il faudrait peut-être avoir de l'intelligence avec beautiful soup pour calcul le tf idf sur le html.
(Pour les pdf, j'ai rajouter les " ---PAGE ---" si on veut resplitter)
Tout est dans le titre.