programminghistorian / ph-submissions

The repository and website hosting the peer review process for new Programming Historian lessons
http://programminghistorian.github.io/ph-submissions
137 stars 111 forks source link

Relecture de traduction : Analyse de documents avec TF-IDF #454

Closed datalogism closed 2 years ago

datalogism commented 2 years ago

Suite du ticket https://github.com/programminghistorian/ph-submissions/issues/273

Le Programming Historian en français a reçu la traduction du tutoriel Analyzing Documents with TF-IDF rédigée par @mjlavin80 , sous le titre "Analyse de documents avec TF-IDF", préparée par les soins de @fdlaramee.

Vous pouvez utiliser la numérotation des lignes fournie dans l'aperçu pour insérer vos commentaires, ou bien les numéros de paragraphe, si cela vous convient. Toutefois, sentez-vous libre de présenter votre relecture comme vous le jugez le mieux. Vous pouvez vous appuyez sur les consignes aux traducteurs du Programming Historian.

Je vais assurer le suivi éditorial de cette traduction et, dans ce cadre, je vais solliciter une relecture, si possible deux. Tout membre de la communauté peut faire un retour constructif sur ce fil de commentaires, après avoir pris connaissance de nos consignes aux évaluateurs et évaluatrices et accepté notre politique contre le harcèlement (voir ci-dessous). Nous demandons que toutes les relectures cessent après réception de la seconde évaluation formelle. J’annoncerai sur ce fil de discussions quand l’étape aura été atteinte puis je transmettrai au traducteur une synthèse des remarques afin qu’il puisse travailler sur la révision de son texte. Je coordonnerai les échanges qui auront lieu dans cet espace. Nous pouvons prévoir un délai d'un mois environ à partir du moment où les deux relectures seront lancées. Ce délai peut néanmoins être adapté si besoin.

Idéalement, la discussion reste ouverte au niveau de Github. Si quelqu'un préfère discuter de manière privée, merci de m'envoyer un message électronique. Vous avez toujours la possibilité de vous tourner vers Hélène Huet si vous avez le sentiment qu'une médiation est nécessaire. Politique contre le harcèlement

Vous trouverez ci-dessous les principes du Programming Historian en français qui doivent inspirer les échanges entre évaluateurs et évaluatrices, auteur(e)s, rédacteurs et rédactrices, ainsi que toute personne contribuant à nos forums publics. Le Programming Historian en français tient à garantir un environnement académique ouvert à la communauté, qui offre la pleine liberté d’explorer minutieusement des idées, poser des questions, faire des suggestions ou demander des clarifications. Il fournit aussi un espace libre de toute discrimination envers les personnes contribuant au projet indépendamment du genre, de l’orientation sexuelle, des situations d’handicap, de l’apparence physique, de la masse corporelle, de l’origine, de l’âge, de la religion ou de l’expérience technique. Nous ne tolérons aucune forme de harcèlement ou d’attaque personnelle contre les membres de la communauté. Les personnes qui violent ces règles sont susceptibles d’être expulsées de la communauté à la discrétion du conseil éditorial. Toute personne en mesure de témoigner de tels comportements ou qui en est la victime peut contacter notre médiatrice Hélène Huet. Merci de nous aider à créer un espace d’échange et de discussion sûr. Licence de publication

@fdlaramee, merci de confirmer par commentaire que, en tant que traductrice du tutoriel dont il est question dans ce ticket, vous cédez à ProgHist Ltd le droit de publier cette traduction sous licence CC-BY en suivant le modèle suivant : Je [prénom, nom] auteur-autrice | traducteur-traductrice cède à ProgHist Ltd de manière non-exclusive notamment le droit de publier le tutoriel | la traduction du tutoriel dont il est question dans ce ticket (y compris le résumé, les tables, les illustrations, les données, et des ressources supplémentaires) sous licence CC-BY.

fdlaramee commented 2 years ago

Je, François Dominic Laramée, traducteur, cède à ProgHist Ltd de manière non-exclusive notamment le droit de publier la traduction du tutoriel dont il est question dans ce ticket (y compris le résumé, les tables, les illustrations, les données, et des ressources supplémentaires) sous licence CC-BY.

Je ne serai cependant peut-être pas disponible pour apporter des ajustements au texte, dont la livraison date de plus de deux ans. À vérifier.

spapastamkou commented 2 years ago

Pas de souci, @fdlaramee, on s'en charge. Merci bcp!

datalogism commented 2 years ago

Merci à @remicardon et à @amdlz d'avoir accepté d'être relecteurs pour cette leçon ! Le delais de relecture est d'un mois, cela est toujours bon vous si nous disons avril ? Nous pouvons toujours adapter ce delais en fonction de vos disponibilités alors n'hésitez pas à nous redire au besoin. Je compilerai ensuite vos remarques et débatterons ensemble sur ce ticket si certains points vous semble nécéssaire d'être discutés. A très vite !

datalogism commented 2 years ago

Hello @amdlz @remicardon, @amdlz m'a demandé par mail comment repérer le numéro de paragraphe. Je réponds donc ici, mais je vous encourages à poser vos questions directement sur le ticket.

Alors pour être franc il n'existe pas vraiment de moyen de le faire visuellement, générallement les reviewers fond au fil des paragraphes leurs remarques et ceci en lisant un à un ceux ci.

Il existe cependant un moyen de réperer le numéro de ligne ici : https://github.com/programminghistorian/ph-submissions/blob/gh-pages/fr/traductions/analyse-de-documents-avec-tfidf.md?plain=1 En ajoutant l'option plain=1 à l'url ou tout simplement en cliquant en au niveau de l'en-tête du fichier sur l'icone "<>".

Il n'existe pas de meilleur moyen, le mien est juste que vous utilisez la même manière de faire en vous arrangeant ci-besoin ici, afin que les corrections puissent ensuite être réalisées facilement.

J'espère avoir de vos nouvelles prochainement

amdlz commented 2 years ago

Hello, merci beaucoup @datalogism pour ta réponse. Je posais la question pour les numéros de ligne que je vais utiliser du coup, si ça convient à tout le monde. Et ok pour début avril !

spapastamkou commented 2 years ago

Si cela aide pour les relectures, une prévisualisation de la leçon est disponible en suivant ce lien-ci: http://programminghistorian.github.io/ph-submissions/fr/en-cours/traductions/analyse-de-documents-avec-tfidf

remicardon commented 2 years ago

Hello, merci pour les informations et la prévisualisation. Je ne suis pas certain d'avoir compris : nous devons poster notre relecture ici dans ce ticket c'est ça ? Concernant le délai, début avril me va également.

remicardon commented 2 years ago

Hello,

Voici ma relecture. Globalement le tutoriel est pertinent et facile à suivre. Tout me semble bien motivé et la structure permet des digressions bienvenues. Il y a quelques détails sur le fond discutés dans ma relecture, mais comme suggéré, je me suis surtout concentré sur la forme.

Remarques générales

Remarques spécifiques (par section)

Aperçu

Connaissances préalables recommandées

Avant de commencer

Jeu de données

Définition et description de Tf-idf

Fonctionnement de l'algorithme

Comment exécuter tf-idf en Python 3

Interpréter les listes de mot : meilleures pratiques et mises en garde

Quelques manières d'utiliser TF-idf en histoire numérique

Variations sur le thème de Tf-idf

Tf-idf et alternatives communes

amdlz commented 2 years ago

Hello,

Voici également mes remarques et suggestions qui se concentrent principalement sur la forme. Je pense aussi que la leçon est facile à suivre et est tout à fait pertinente.

Remarques générales :

Relecture : Ce qui suit n'est que proposition. Je reprends le numéro de la ligne puis l’expression du texte en français que je note entre guillemets et je propose mes suggestions.

Aperçu

Connaissances préalables recommandées

Avant de commencer

Jeu de données

à remplacer par :

« Les données moissonnées sont également disponibles à deux endroits :

  1. dans le répertoire « necrologies » contenant les fichiers '.html' téléchargés à partir du site web « On This Day » de 2011
  2. dans le répertoire "txt" contenant des fichiers '.txt'.

Dans ces derniers se trouve le corps du texte de chaque nécrologie. Ces fichiers ont été générés à l'aide du module Python nommé BeautifulSoup. Son utilisation est expliquée dans une autre leçon du Programming Historian, Intro to BeautifulSoup (en anglais). »

Définition et description de Tf-idf

Fonctionnement de l'algorithme

Comment exécuter tf_idf en Python 3

Interpréter les listes de mots: meilleures pratiques et mises en garde

1. En tant qu'outil d'exploration ou de visualisation

2. Pour calculer la similarité des textes et des ensembles de traits caractéristiques

3. En tant qu'étape de prétraitement

1. Mots vides ('stopwords')

2. Modèles thématiques

Notes

datalogism commented 2 years ago

Hello, Vous m'avez surpris je ne m'attendais pas à recevoir vos deux revues dans la même demi-heure !

En tout cas merci à vous deux pour ce travail attentif et detaillé, je vois que vous vous êtes posé pas mal de questions et que vous avez été jusqu'à vérifier des détails importants les liens hypertextes.

Je vais tenter pour ma part de compiler vos deux retours dans la semaine, je m'occuperai par la même occasion de vous relancer si certaines de vos remarques divergent.

Encore merci @remicardon @amdlz :)

remicardon commented 2 years ago

@datalogism pour info, j'ai retiré une remarque de ma relecture (celle sur l'exemple d'illustration de la racinisation). Ce que je disais était erroné et venait d'un manque d'expérience avec cette étape appliquée à l'anglais.

anisa-hawes commented 2 years ago

Hello all,

Please note that this lesson's .md file has been moved to a new location within our Submissions Repository. It is now found here: https://github.com/programminghistorian/ph-submissions/blob/gh-pages/fr/en-cours/traductions/

A consequence is that this lesson's preview link has changed. It is now: http://programminghistorian.github.io/ph-submissions/fr/en-cours/traductions/analyse-de-documents-avec-tfidf

Please let me know if you encounter any difficulties or have any questions.

Very best, Anisa

datalogism commented 2 years ago

Thank you @anisa-hawes !

datalogism commented 2 years ago

Hello ! Désolé j'ai eu quelques imprévus ces derniers jours et vous reponds donc seulement. J'ai commencé la compilation de vos commentaires et vous propose de vous en faire un retour en trois temps afin de ne pas avoir à faire un effet bloc qui peux parfois être chronophage et effrayant !

J'ai donc annoté le tout en utilisant :


1. Remarques générales

Erreurs récurrentes soulevées par les reviewers :

2. Remarques spécifiques (par section)

2.1. Aperçu

2.2. Préparation

Connaissances préalables recommandées

Avant de commencer

Jeu de données

  1. dans le répertoire « necrologies » contenant les fichiers '.html' téléchargés à partir du site web « On This Day » de 2011

  2. dans le répertoire "txt" contenant des fichiers '.txt'.

    Dans ces derniers se trouve le corps du texte de chaque nécrologie. Ces fichiers ont été générés à l'aide du module Python nommé BeautifulSoup. Son utilisation est expliquée dans une autre leçon du Programming Historian, Intro to BeautifulSoup (en anglais). »

    :point_right: Oui plus lisible

Définition et description de Tf-idf


A vos claviers !

remicardon commented 2 years ago

Hello @datalogism , voici mes réponses. J'ai répondu aux deux derniers types de remarques qui concernaient ma relecture, et à tous les ajouts proposés qui n'étaient pas adressés à @spapastamkou .

amdlz commented 2 years ago

Hello @datalogism, voici mes réponses :

spapastamkou commented 2 years ago

J'ai parcouru rapidement les échanges, dont je vous remercie, je reviens dès que possible avec quelques brefs commentaires surtout que j'ai vu que je suis interpellée:) Au plus tard d'ici vendredi, merci pour votre compréhension.

datalogism commented 2 years ago

Merci beaucoup @amdlz :) j'attends le retour de @remicardon et go pour la prochaine vague

remicardon commented 2 years ago

@datalogism Il y est déjà :)

datalogism commented 2 years ago

@remicardon autant pour moi ! merci :)

datalogism commented 2 years ago

En voici la deuxième vague de retours :)

Fonctionnement de l'algorithme

Comment exécuter tf_idf en Python 3

Interpréter les listes de mots: meilleures pratiques et mises en garde

spapastamkou commented 2 years ago

Hello, avant toute chose, merci beaucoup @remicardon et @amdlz pour vos relectures, commentaires et échanges qui aideront notre rédacteur en charge du suivi de cette traduction, @datalogism, à préparer la publication de la version FR de cette leçon. Je lui laisse bien évidemment les questions du fond; je réponds donc à mon tour aux questions qui m'ont été adressées et je me permets aussi de réagir de manière sporadique à des choses qui ont retenu mon attention ici et là. J'utilise la numérotation que j'ai trouvée plus haut.

  1. A quelques reprises il est question de liens qui ne fonctionneraient pas (par ex. 2.2.14, 2.2.22 en plus de celui de la leçon -maintenant retirée - sur Beautiful Soup). Il s'agit de liens relatifs dans le fichier markdown qui viennent de l'original, déjà publié (parce que ce sont des liens relatifs que nous utilisons sur le dépôt jekyll pour les liens internes). Je crois que c'est évoqué quelque part, les liens relatifs ne fonctionnent pas dans les prévisualisations de ce dépôt ph-submissions (alors que c'est le cas sur notre dépôt jekyll). Ici il faut des liens absolus, que nous n'avons pas changé dans le fichier, puisque par la suite, au moment du transfert vers jekyll, il faudra les transformer à nouveau en liens relatifs. Il faut se référer à l'original déjà en ligne et, pour les données, j'ai vu que le lien vers les données est fourni dans un des commentaires.

=> @datalogism il nous faut remplacer le lien par celui-ci: /fr/lecons/introduction-et-installation et enlever la partie de la phrase entre parenthèses.

=> Que penses-tu de celui-ci: https://zestedesavoir.com/tutoriels/2514/un-zeste-de-python/ Ce tutoriel est librement accessible et ne nécessite pas d'inscription/création de compte, il est disponible intégralement iet possible à parcourir rapidement pour se répérer facilement dans les contenus.

2. Ces fichiers ont été générés à l'aide du module Python nommé BeautifulSoup. Son utilisation est expliquée dans une autre leçon du Programming Historian, Intro to BeautifulSoup (en anglais). »

=> remplacer par: Ces fichiers ont été générés à l’aide du module Python nommé BeautifulSoup. (La leçon sur BS n'est pas nécessaire pour la compréhension de cette leçon-ci, elle est évoquée à titre d'information; du moment qu'elle a été retirée, nous pouvons modifier la phrase ici sans rien perdre du contenu).

  1. En vrac:
    • il est question de blogue/blog: nous pouvons garder blogue sans problème puisque nous sommes ouverts à la diversité de la langue française et blogue est facilement compréhensible
    • il est question de "carnets Jupyter" vs "Jupyter notebooks". Il est vrai que dans la leçon dédié nous avons utilisé carnets Jupyter, on peut alors préférer le terme traduit pour des raisons de cohérence
    • "le problème est que la plupart des mots" est peut-être plus pertinent que "le problème, c'est que la plupart des mots" (2.2.31)
spapastamkou commented 2 years ago

Je profite pour rappeler un peu les grandes lignes de la procédure de l'évaluation par commentaire séparé pour que nos évaluateurs sachent aussi à quoi s'attendre par la suite. A moins que @datalogism souhaite discuter de certains points par la suite avec vous, @remicardon et @amdlz, pour les clarifier davantage, votre travail est essentiellement terminé. A nouveau merci pour le temps que avez pu nous consacrer!

@datalogism Je ne sais pas si tu as terminé, mais s'il reste encore des retours à faire, je te propose, pour simplifier, de synthétiser sur les points qui ne posent pas de problème et de reprendre point par point seulement ceux pour lesquels tu souhaiterais plus de clarifications. Nous allons aussi demander à @fdlaramee s'il a la disponibilité de réagir et/ou d'apporter des modifications dans le texte suivant les relectures et en fonction de ses propres vues. @fdlaramee, il nous faudrait au moins que tu nous fasses part de tes objections, si tu en as; si tu ne te manifestes pas, nous prendrons cela pour un tacite accord:-)

Enfin, si François Dominic n'a pas la disponibilité d'intervenir dans le fichier pour modifier le texte selons les relectures, ce sera Célian de le faire (nous avons pratiquement tous eu droit à cela par le passé: moi, Gwenaëlle, et François Dominic aussi!). Je reste bien évidemment à disposition si besoin.

fdlaramee commented 2 years ago

Bonjour Sofia,

Allez-y selon votre bon jugement, toi et l’équipe, je préfère me retirer complètement du dossier.

Merci!

remicardon commented 2 years ago

Hello @datalogism , voici mes réponses à la deuxième vague.

spapastamkou commented 2 years ago

Merci @fdlaramee. Je laisse @datalogism tranquille pour finir son travail et serai en support si besoin à la fin. Je profite pour te poser la question: je tiens que nous aurons la même liberté pour ton autre traduction? Si tu nous confirmes, cela nous aidera à nous organiser à l'avance. Merci!

fdlaramee commented 2 years ago

Oui, même chose pour l’autre.

-- François Dominic Laramée, PhD Journaliste et chroniqueur indépendant Chargé de cours en sciences humaines numériques www.francoisdominiclaramee.com

Le 19 avr. 2022 à 06:59, Sofia Papastamkou @.***> a écrit :

 Merci @fdlaramee. Je laisse @datalogism tranquille pour finir son travail et serai en support si besoin à la fin. Je profite pour te poser la question: je tiens que nous aurons la même liberté pour ton autre traduction? Si tu nous confirmes, cela nous aidera à nous organiser à l'avance. Merci!

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.

datalogism commented 2 years ago

@remicardon, j'adhère avec la totalité de tes remarques @fdlaramee ça marche, je prends le relai quand aux corrections, si tu n'es pas d'accord avec certaines d'entre elles et bien tu sais où nous trouver ! @spapastamkou, 100% ok avec ton proposition de ressource ! Je rajoutes les points que tu soulignes à la to do list finale.

Merci à vous trois !

amdlz commented 2 years ago

Hello, Je réponds rapidement à la 2ème vague : Je suis d'accord avec toi @datalogism pour toutes tes propositions (2.3.11., 2.3.13. et 2.3.17) et pour le point 2.3.10., je te laisse choisir le lien le plus approprié :)

datalogism commented 2 years ago

Hello @amdlz, @remicardon, Je ne vais pas vous refaire le listing de vos remarques cette fois-ci, j'ai seulement une proposition à vous faire à chacun :

Une fois que j'aurai eu vos retours concernant ces deux points, votre travail sera terminé ! Je tiens à vous remercier sincèrement d'avoir participé à cette relecture à nos côtés, vos revues ont été vraiment enrichissantes, vous avez vraiment passé du temps sur la question et cela s'est fait sentir ! Ta leçon @fdlaramee va donc pouvoir enfin pouvoir être publiée :) merci à vous trois pour votre travail, la traduction de cet article est grace à vous réellement qualitative !

Je m'occupe dans le courant de la semaine prochaine d'apppliquer tout vos retours. La leçon devrait si tout va bien pouvoir être publiée début de moi prochain ! Bon weekend à tous

amdlz commented 2 years ago

Hello, Parfait pour ce dernier point, je suis d'accord avec ta proposition @datalogism ! C'était un plaisir de vous aider un petit peu. Bonne continuation à tous et à toutes !

remicardon commented 2 years ago

Hello,

"Pénalisation" convient aussi effectivement, il y a aussi le terme de "régularisation" qui me semble plus fréquent. Concernant la formulation, "la normalisation l1 et l2" me semble justement suggérer qu'il s'agit d'une seule normalisation qui s'appelle "l1 et l2", alors qu'utiliser le pluriel les différencie.

Merci encore pour la solicitation, c'était un travail intéressant ! Je suis ravi d'avoir pu aider.

Bonne continuation !

datalogism commented 2 years ago

Tu m'as convaincu : ok pour régularisation et le pluriel. Merci à toi @remicardon ! Ce fut un reel plaisir de travailler à vos cotés avec @amdlz ! Bonne continuation à vous.

spapastamkou commented 2 years ago

@datalogism a fait savoir par email que toutes les modifications ont été intégrées. Merci beaucoup pour cet énorme travail qui n'était pas facile! (Je crois qu'il y a un petit oubli au niveau du titre dans les métadonnées yaml, qu'il faudra mettre en français, mais on peut se rattraper avant la publication si besoin).
@anisa-hawes: normally this translated lesson is now ready for you to review the typesetting and markdown. Please note there is no urgency here, do according to your availabilities and we will be able to publish after. Thanks!

datalogism commented 2 years ago

Merci @spapastamkou, je viens de corriger cela !

spapastamkou commented 2 years ago

merci beaucoup, @datalogism !

spapastamkou commented 2 years ago

@anisa-hawes I am done with the final checks before publishing (as per ME's tasks) but did not touch either the footnotes or the markdown. Let me know if you want me to do anything there! Thanks!

anisa-hawes commented 2 years ago

Bonjour François Dominic @fdlaramee, Célian @datalogism et Sofia @spapastamkou,

Veuillez m'excuser pour le retard. Je partage ici mes commentaires.

Merci à vous, Anisa

spapastamkou commented 2 years ago

@datalogism J'ai fini par intégrer une référence supplémentaire dans les lecturers recommandées pour Python, le livre d'Emilien Schultz et de Matthias Bussonnier, qu'en penses-tu? Cela fait un moment que je cherchais l'occasion de le faire au PH FR et celle-ci me semble être la bonne:-) Pour ne pas compliquer la vie de @anisa-hawes, qui avait intégré des liens perma.cc, j'ai utilisé le permalien (permalink) de Worldcat, qui est pérenne. Je vous donne rdv au PR au cas où vous souhaitez discuter ces modifications.

datalogism commented 2 years ago

Ok parfait ! Tu as raison la lesson s'y prete bien.

spapastamkou commented 2 years ago

Cette leçon a bel et bien été publiée et est disponible ici: https://programminghistorian.org/fr/lecons/analyse-de-documents-avec-tfidf Merci à toutes et à tous pour vos contributions, en particulier à @remicardon et @amdlz pour vos évaluations!