pchaigno / ra

Parallelized Java implementation of the APriori algorithm for association rule learning
MIT License
0 stars 0 forks source link

Format des données pour les articles #2

Closed pchaigno closed 10 years ago

pchaigno commented 10 years ago

Pour les articles (les deux fichiers de test avec des articles de presse), est ce qu'on aurait pas plutôt intérêt à transformer tout en entiers ? On peut attribuer un numéro à chaque mot du dictionnaire. Ensuite, pour chaque article, on écrit dans le fichier les numéros des mots qui apparaissent dans l'article (au lieu de YES/NO actuellement).

L'avantage c'est qu'on a déjà tout l'algorithme pour traiter les entiers. Et ce sera surement plus rapide que de gérer des symboles.

Il n'y a pas besoin de changer beaucoup le script de @echauty pour ça. J'ai une version fonctionnelle si vous voulez.

echoti commented 10 years ago

Faisons ça alors, oui les modifs sont très legères, autant en profiter. 

— Sent from Mailbox for iPhone

On Sun, Apr 6, 2014 at 5:15 PM, Paul Chaignon notifications@github.com wrote:

Pour les articles (les deux fichiers de test avec des articles de presse), est ce qu'on aurait pas plutôt intérêt à transformer tout en entiers ? On peut attribuer un numéro à chaque mot du dictionnaire. Ensuite, pour chaque article, on écrit dans le fichier les numéros des mots qui apparaissent dans l'article (au lieu de YES/NO actuellement). L'avantage c'est qu'on a déjà tout l'algorithme pour traiter les entiers. Et ce sera surement plus rapide que de gérer des symboles. Il n'y a pas besoin de changer beaucoup le script de @echauty pour ça.

J'ai une version fonctionnelle si vous voulez.

Reply to this email directly or view it on GitHub: https://github.com/pchaigno/ProjetRA/issues/2

gwandalf commented 10 years ago

Salut,

Pour qu'on soit tous d'accord : les fichiers interprétables par notre implémentation d'Apriori doivent-ils tous être au format "entiers", c'est-à-dire le format de "5027_articles.txt" ou bien doit-on accepter d'autres formats ?

Personnellement j'opte plutôt pour la première option, étant donné l'importance réelle du projet, l'examen de réseaux, le ras-le-bol des projets en trop, le coeff etc... même si cela veut dire qu'environ 80% du travail que j'ai fait depuis le début ne sert à rien.

Gwendal

----- Mail original ----- De: "Eric Chauty" notifications@github.com À: "pchaigno/ProjetRA" ProjetRA@noreply.github.com Envoyé: Dimanche 6 Avril 2014 17:29:09 Objet: Re: [ProjetRA] Format des données pour les articles (#2)

Faisons ça alors, oui les modifs sont très legères, autant en profiter.

— Sent from Mailbox for iPhone

On Sun, Apr 6, 2014 at 5:15 PM, Paul Chaignon notifications@github.com wrote:

Pour les articles (les deux fichiers de test avec des articles de presse), est ce qu'on aurait pas plutôt intérêt à transformer tout en entiers ? On peut attribuer un numéro à chaque mot du dictionnaire. Ensuite, pour chaque article, on écrit dans le fichier les numéros des mots qui apparaissent dans l'article (au lieu de YES/NO actuellement). L'avantage c'est qu'on a déjà tout l'algorithme pour traiter les entiers. Et ce sera surement plus rapide que de gérer des symboles. Il n'y a pas besoin de changer beaucoup le script de @echauty pour ça.

J'ai une version fonctionnelle si vous voulez.

Reply to this email directly or view it on GitHub: https://github.com/pchaigno/ProjetRA/issues/2

— Reply to this email directly or view it on GitHub .

pchaigno commented 10 years ago

Je suis pour la première option aussi. C'est plus rapide et je pense que les "enseignants" veulent surtout qu'on regarde les résultats et les performances. Et puis au final, pour Weka aussi il faut faire un pré-traitement pour quasiment tout type de données :/.

Désolé pour tes 80% de travail :(

echoti commented 10 years ago

Ça me va également, pas cool pour toi Gwendy :(

— Sent from Mailbox for iPhone

On Thu, Apr 10, 2014 at 7:56 AM, Paul Chaignon notifications@github.com wrote:

Je suis pour la première option aussi. C'est plus rapide et je pense que les "enseignants" veulent surtout qu'on regarde les résultats et les performances. Et puis au final, pour Weka aussi il faut faire un pré-traitement pour quasiment tout type de données :/.

Désolé pour tes 80% de travail :(

Reply to this email directly or view it on GitHub: https://github.com/pchaigno/ProjetRA/issues/2#issuecomment-40045572