Format des données pour les articles

pchaigno commented 10 years ago

Pour les articles (les deux fichiers de test avec des articles de presse), est ce qu'on aurait pas plutôt intérêt à transformer tout en entiers ? On peut attribuer un numéro à chaque mot du dictionnaire. Ensuite, pour chaque article, on écrit dans le fichier les numéros des mots qui apparaissent dans l'article (au lieu de YES/NO actuellement).

L'avantage c'est qu'on a déjà tout l'algorithme pour traiter les entiers. Et ce sera surement plus rapide que de gérer des symboles.

Il n'y a pas besoin de changer beaucoup le script de @echauty pour ça. J'ai une version fonctionnelle si vous voulez.

echoti commented 10 years ago

Faisons ça alors, oui les modifs sont très legères, autant en profiter.

— Sent from Mailbox for iPhone

On Sun, Apr 6, 2014 at 5:15 PM, Paul Chaignon notifications@github.com wrote:

Pour les articles (les deux fichiers de test avec des articles de presse), est ce qu'on aurait pas plutôt intérêt à transformer tout en entiers ? On peut attribuer un numéro à chaque mot du dictionnaire. Ensuite, pour chaque article, on écrit dans le fichier les numéros des mots qui apparaissent dans l'article (au lieu de YES/NO actuellement). L'avantage c'est qu'on a déjà tout l'algorithme pour traiter les entiers. Et ce sera surement plus rapide que de gérer des symboles. Il n'y a pas besoin de changer beaucoup le script de @echauty pour ça.

J'ai une version fonctionnelle si vous voulez.

Reply to this email directly or view it on GitHub: https://github.com/pchaigno/ProjetRA/issues/2

gwandalf commented 10 years ago

Salut,

Pour qu'on soit tous d'accord : les fichiers interprétables par notre implémentation d'Apriori doivent-ils tous être au format "entiers", c'est-à-dire le format de "5027_articles.txt" ou bien doit-on accepter d'autres formats ?

La première option (tous au même format) est beaucoup plus simple à implémenter (en fait il ne reste plus rien à faire) mais n'est pas très user-friendly puisque pour interpréter n'importe quel type de donné, l'utilisateur doit systématiquement fournir le script qui fait la conversion.
La deuxième option est difficile à implémenter si on veut faire les choses bien (et on n'a pas le temps). Une alternative consisterait à faire des simplifications : on ne traite que des symboles qui sont convertis dès l'entrée en entiers. Pas de reconnaissance des booléens, ni de définition d'intervalles pour les entiers.

Personnellement j'opte plutôt pour la première option, étant donné l'importance réelle du projet, l'examen de réseaux, le ras-le-bol des projets en trop, le coeff etc... même si cela veut dire qu'environ 80% du travail que j'ai fait depuis le début ne sert à rien.

Gwendal

----- Mail original ----- De: "Eric Chauty" notifications@github.com À: "pchaigno/ProjetRA" ProjetRA@noreply.github.com Envoyé: Dimanche 6 Avril 2014 17:29:09 Objet: Re: [ProjetRA] Format des données pour les articles (#2)

Faisons ça alors, oui les modifs sont très legères, autant en profiter.

— Sent from Mailbox for iPhone

On Sun, Apr 6, 2014 at 5:15 PM, Paul Chaignon notifications@github.com wrote:

Pour les articles (les deux fichiers de test avec des articles de presse), est ce qu'on aurait pas plutôt intérêt à transformer tout en entiers ? On peut attribuer un numéro à chaque mot du dictionnaire. Ensuite, pour chaque article, on écrit dans le fichier les numéros des mots qui apparaissent dans l'article (au lieu de YES/NO actuellement). L'avantage c'est qu'on a déjà tout l'algorithme pour traiter les entiers. Et ce sera surement plus rapide que de gérer des symboles. Il n'y a pas besoin de changer beaucoup le script de @echauty pour ça.

J'ai une version fonctionnelle si vous voulez.

Reply to this email directly or view it on GitHub: https://github.com/pchaigno/ProjetRA/issues/2

— Reply to this email directly or view it on GitHub .

pchaigno commented 10 years ago

Je suis pour la première option aussi. C'est plus rapide et je pense que les "enseignants" veulent surtout qu'on regarde les résultats et les performances. Et puis au final, pour Weka aussi il faut faire un pré-traitement pour quasiment tout type de données :/.

Désolé pour tes 80% de travail :(

echoti commented 10 years ago

Ça me va également, pas cool pour toi Gwendy :(

— Sent from Mailbox for iPhone

On Thu, Apr 10, 2014 at 7:56 AM, Paul Chaignon notifications@github.com wrote:

Je suis pour la première option aussi. C'est plus rapide et je pense que les "enseignants" veulent surtout qu'on regarde les résultats et les performances. Et puis au final, pour Weka aussi il faut faire un pré-traitement pour quasiment tout type de données :/.

Désolé pour tes 80% de travail :(

Reply to this email directly or view it on GitHub: https://github.com/pchaigno/ProjetRA/issues/2#issuecomment-40045572

pchaigno / ra

Format des données pour les articles #2

J'ai une version fonctionnelle si vous voulez.

J'ai une version fonctionnelle si vous voulez.

Désolé pour tes 80% de travail :(