henricazottes / candidate-to-concepts

An analysis tool to extract top concepts from candidate programs
1 stars 0 forks source link

Télécharger les sources PDF et HTML depuis le fichier JSON #1

Open henricazottes opened 2 years ago

henricazottes commented 2 years ago

Tout est dans le titre.

DoubleSept commented 2 years ago

Sur la branche downloader, ça crée des ".txt".

Il faudrait peut-être avoir de l'intelligence avec beautiful soup pour calcul le tf idf sur le html.

(Pour les pdf, j'ai rajouter les " ---PAGE ---" si on veut resplitter)