programminghistorian / ph-submissions

The repository and website hosting the peer review process for new Programming Historian lessons

http://programminghistorian.github.io/ph-submissions

137 stars 111 forks source link

Relecture de traduction : Analyse de documents avec TF-IDF #454

Closed datalogism closed 2 years ago

datalogism commented 2 years ago

Suite du ticket https://github.com/programminghistorian/ph-submissions/issues/273

Le Programming Historian en français a reçu la traduction du tutoriel Analyzing Documents with TF-IDF rédigée par @mjlavin80 , sous le titre "Analyse de documents avec TF-IDF", préparée par les soins de @fdlaramee.

Vous pouvez utiliser la numérotation des lignes fournie dans l'aperçu pour insérer vos commentaires, ou bien les numéros de paragraphe, si cela vous convient. Toutefois, sentez-vous libre de présenter votre relecture comme vous le jugez le mieux. Vous pouvez vous appuyez sur les consignes aux traducteurs du Programming Historian.

Je vais assurer le suivi éditorial de cette traduction et, dans ce cadre, je vais solliciter une relecture, si possible deux. Tout membre de la communauté peut faire un retour constructif sur ce fil de commentaires, après avoir pris connaissance de nos consignes aux évaluateurs et évaluatrices et accepté notre politique contre le harcèlement (voir ci-dessous). Nous demandons que toutes les relectures cessent après réception de la seconde évaluation formelle. J’annoncerai sur ce fil de discussions quand l’étape aura été atteinte puis je transmettrai au traducteur une synthèse des remarques afin qu’il puisse travailler sur la révision de son texte. Je coordonnerai les échanges qui auront lieu dans cet espace. Nous pouvons prévoir un délai d'un mois environ à partir du moment où les deux relectures seront lancées. Ce délai peut néanmoins être adapté si besoin.

Idéalement, la discussion reste ouverte au niveau de Github. Si quelqu'un préfère discuter de manière privée, merci de m'envoyer un message électronique. Vous avez toujours la possibilité de vous tourner vers Hélène Huet si vous avez le sentiment qu'une médiation est nécessaire. Politique contre le harcèlement

Vous trouverez ci-dessous les principes du Programming Historian en français qui doivent inspirer les échanges entre évaluateurs et évaluatrices, auteur(e)s, rédacteurs et rédactrices, ainsi que toute personne contribuant à nos forums publics. Le Programming Historian en français tient à garantir un environnement académique ouvert à la communauté, qui offre la pleine liberté d’explorer minutieusement des idées, poser des questions, faire des suggestions ou demander des clarifications. Il fournit aussi un espace libre de toute discrimination envers les personnes contribuant au projet indépendamment du genre, de l’orientation sexuelle, des situations d’handicap, de l’apparence physique, de la masse corporelle, de l’origine, de l’âge, de la religion ou de l’expérience technique. Nous ne tolérons aucune forme de harcèlement ou d’attaque personnelle contre les membres de la communauté. Les personnes qui violent ces règles sont susceptibles d’être expulsées de la communauté à la discrétion du conseil éditorial. Toute personne en mesure de témoigner de tels comportements ou qui en est la victime peut contacter notre médiatrice Hélène Huet. Merci de nous aider à créer un espace d’échange et de discussion sûr. Licence de publication

@fdlaramee, merci de confirmer par commentaire que, en tant que traductrice du tutoriel dont il est question dans ce ticket, vous cédez à ProgHist Ltd le droit de publier cette traduction sous licence CC-BY en suivant le modèle suivant : Je [prénom, nom] auteur-autrice | traducteur-traductrice cède à ProgHist Ltd de manière non-exclusive notamment le droit de publier le tutoriel | la traduction du tutoriel dont il est question dans ce ticket (y compris le résumé, les tables, les illustrations, les données, et des ressources supplémentaires) sous licence CC-BY.

fdlaramee commented 2 years ago

Je, François Dominic Laramée, traducteur, cède à ProgHist Ltd de manière non-exclusive notamment le droit de publier la traduction du tutoriel dont il est question dans ce ticket (y compris le résumé, les tables, les illustrations, les données, et des ressources supplémentaires) sous licence CC-BY.

Je ne serai cependant peut-être pas disponible pour apporter des ajustements au texte, dont la livraison date de plus de deux ans. À vérifier.

spapastamkou commented 2 years ago

Pas de souci, @fdlaramee, on s'en charge. Merci bcp!

datalogism commented 2 years ago

Merci à @remicardon et à @amdlz d'avoir accepté d'être relecteurs pour cette leçon ! Le delais de relecture est d'un mois, cela est toujours bon vous si nous disons avril ? Nous pouvons toujours adapter ce delais en fonction de vos disponibilités alors n'hésitez pas à nous redire au besoin. Je compilerai ensuite vos remarques et débatterons ensemble sur ce ticket si certains points vous semble nécéssaire d'être discutés. A très vite !

datalogism commented 2 years ago

Hello @amdlz @remicardon, @amdlz m'a demandé par mail comment repérer le numéro de paragraphe. Je réponds donc ici, mais je vous encourages à poser vos questions directement sur le ticket.

Alors pour être franc il n'existe pas vraiment de moyen de le faire visuellement, générallement les reviewers fond au fil des paragraphes leurs remarques et ceci en lisant un à un ceux ci.

Il existe cependant un moyen de réperer le numéro de ligne ici : https://github.com/programminghistorian/ph-submissions/blob/gh-pages/fr/traductions/analyse-de-documents-avec-tfidf.md?plain=1 En ajoutant l'option plain=1 à l'url ou tout simplement en cliquant en au niveau de l'en-tête du fichier sur l'icone "<>".

Il n'existe pas de meilleur moyen, le mien est juste que vous utilisez la même manière de faire en vous arrangeant ci-besoin ici, afin que les corrections puissent ensuite être réalisées facilement.

J'espère avoir de vos nouvelles prochainement

amdlz commented 2 years ago

Hello, merci beaucoup @datalogism pour ta réponse. Je posais la question pour les numéros de ligne que je vais utiliser du coup, si ça convient à tout le monde. Et ok pour début avril !

spapastamkou commented 2 years ago

Si cela aide pour les relectures, une prévisualisation de la leçon est disponible en suivant ce lien-ci: http://programminghistorian.github.io/ph-submissions/fr/en-cours/traductions/analyse-de-documents-avec-tfidf

remicardon commented 2 years ago

Hello, merci pour les informations et la prévisualisation. Je ne suis pas certain d'avoir compris : nous devons poster notre relecture ici dans ce ticket c'est ça ? Concernant le délai, début avril me va également.

remicardon commented 2 years ago

Hello,

Voici ma relecture. Globalement le tutoriel est pertinent et facile à suivre. Tout me semble bien motivé et la structure permet des digressions bienvenues. Il y a quelques détails sur le fond discutés dans ma relecture, mais comme suggéré, je me suis surtout concentré sur la forme.

Remarques générales

Surtout au début, il y a une hésitation entre tf-idf et tf_idf (à choisir entre les deux je recommande tf-idf)
Je ne suis pas à l'aise avec le mot "pointage" (pour traduire "score") > si souhait de ne pas calquer le "score" anglais, valeur ? ("valeur" est déjà utilisé à plusieurs reprises dans le même contexte)
implement / implementation se disent implémenter / implémentation dans ce contexte en français (et non pas implanter / implantation, ce qui peut être une bonne traduction dans un autre contexte)
Natural language processing se traduit par Traitement automatique des langues (naturelles), l'acronyme en français est TAL, en conséquence "traitement du langage naturel" ne convient pas.
À plusieurs reprises, "information retrieval" est traduit par "extraction d'informations". Or l'extraction d'informations est un autre domaine. Information retrieval se traduit en "recherche d'informations".

Remarques spécifiques (par section)

Aperçu

pourquoi "d'une discussion" ? Traduire "heard" par "avez rencontré" ici suffit.
Forage de textes > fouille de textes
computational methods : méthodes numériques > méthodes automatiques

Connaissances préalables recommandées

familiarité ? > plutôt "connaissance/expérience préalable de python ou d'un langage..." ?
confortable > à l'aise
compléter > terminer ?
lire ces fichiers CSV > visualiser ces fichiers CSV

Avant de commencer

(ou mieux) > ou une version plus récente ?
"qui contient notre version de tf-idf" : qui est le "notre" dans "notre version" ici ? > "la version que nous présentons ici" ?
"obtenir toute cette fonctionnalité" > installer toutes ces dépendances

Jeu de données

générés > produits
vitrine vers les textes > vers les personnes (... mises en valeur...)

Définition et description de Tf-idf

Les deux premiers paragraphes ont été fusionnés et il manque des informations (non cruciales pour le tutoriel) du premier paragraphe.
différence entre ce qui est bon [...] et ce qui est particulièrement (ou uniquement) bon > changer "particulièrement bon" par "bon et original (ou unique)" pour à la fois coller au sens d'origine et à la liste à puces numérotées en dessous ?

Fonctionnement de l'algorithme

calculs additionnels > calculs supplémentaires
Référence au billet de Ben Schmidt, ajouter la mention "en anglais" comme lors des précédents renvois à des ressources en anglais
Dans cette section, l'équation tf-idf dit qu'on multiplie tfi par idfi, et plus bas avec le tableau on multiplie par la colonne "count/décompte". L'information est déductible, mais il me semble qu'il serait bon d'expliciter que tf et décompte dénotent la même chose (ou renommer la colonne "count/décompte" en "tf" ?) dans les calculs détaillés ici, et ce d'autant plus que l'autre terme "df" est à la fois dans les équations et dans le tableau en tant qu'en-tête de colonne.
"les plus forts pointages" > scores/valeurs les plus élevé(e)s ?

Comment exécuter tf-idf en Python 3

le nom du répertoire > l'emplacement du répertoire / le chemin du répertoire
construire des chemins complets > afficher des chemins complets
je retourne la longueur > je renvoie la longueur
Paragraphe suivant, la ligne "with open(txt_file) as f:" n'est pas expliquée. Son fonctionnement n'étant pas intuitif, je pense qu'il serait bon d'ajouter une explication.
À mon sens "Tokenization" peut se traduire en "tokenisation", l'usage de ce mot est très courant dans le domaine. Je n'ai jamais rencontré "analyse lexicale" dans le sens présenté par la page Wikipedia vers laquelle le tutoriel renvoie, cela dit en lisant l'article cette expression semble pouvoir faire l'affaire. L'article propose également "segmentation", mais on utilise ce mot plutôt pour décrire l'étape de découpage d'un texte en phrases. "Division en lexèmes" ne me semble pas un équivalent adapté ici. La tokenisation n'implique pas en soi d'éliminer la ponctuation, les signes de ponctuation peuvent être eux aussi des tokens. Ici, la division du texte en lexèmes n'est donc pas la tokenisation mais le résultat de deux traitements : la tokenisation et la suppression de la ponctuation. On peut arguer que dans certaines acceptions du mot "lexème", son sens englobe aussi les signes de ponctuation, mais cette ambigüité me semble constituer un argument de plus contre son utilisation.
"les différentes mesures calculées pour chaque mot" : ici "les différentes mesures" peut laisser penser que plusieurs calculs sont faits pour chaque mot, or seul le tf-idf est calculé.

Interpréter les listes de mot : meilleures pratiques et mises en garde

Dans le titre : espace insécable à ajouter entre "mots" et ":"
Le segment "(The section of this tutorial titled Scikit-Learn Settings says more about how you can treat a named entity or a phrase as a single token.)" est absent de la version française.
Le tableau dans cette section ne s'affiche pas correctement, en tout cas sur mon navigateur (je vois simplement une seule ligne avec une liste de termes séparés par des |, et les fins de lignes du tableau sont marquées par des ||).

Quelques manières d'utiliser TF-idf en histoire numérique

"weighting term frequencies against norms" : la traduction perd la notion de norme, "normalisation" conviendrait mieux que "pondération" ici.

Variations sur le thème de Tf-idf

Je me demande s'il faut traduire "open source".
pourquoi "python" apparaît dans les morceaux de code de la section "mots vides" ? (question qui vaut pour la version anglaise comme pour la version française). De plus dans la version anglaise, ces morceaux de code devraient faire apparaître "stop_words" et non pas "stopwords".
la normalisation l1 et l2 > les normalisations l1 et l2 (il s'agit de deux normalisations différentes, le pluriel aurait aussi dû être utilisé en anglais)
Ajouter un espace insécable entre "caractéristiques" et ":" dans le titre "Traits caractéristiques: au-delà des mots"

Tf-idf et alternatives communes

Le paragraphe introductif de la version en anglais mentionne "four [...] measures" et n'en présente que trois par la suite. Cela a été corrigé dans la version française.
Dans la section sur le résumé : manière complètement différente que tf-idf > différente de tf-idf

amdlz commented 2 years ago

Hello,

Voici également mes remarques et suggestions qui se concentrent principalement sur la forme. Je pense aussi que la leçon est facile à suivre et est tout à fait pertinente.

Remarques générales :

En français, les deux points, le point d’exclamation, le point-virgule, le point d’interrogation suivent un espace insécable.
On utilise ensuite les guillemets français « … » au lieu des guillemets simples.
Je ne suis pas sûre du terme « pointage » et proposerais plutôt « pondération »? De même, le terme « implantation » est utilisé, mais je ne sais pas si celui d’« implémentation » est plus adéquat.

Relecture : Ce qui suit n'est que proposition. Je reprends le numéro de la ligne puis l’expression du texte en français que je note entre guillemets et je propose mes suggestions.

Aperçu

Ligne 26 : À la place de « couvre », je propose « présente »
Ligne 28 : Remplacer « cette leçon explique comment isoler les mots les plus importants d’un document des mots qui ont tendance à apparaître fréquemment dans de nombreux documents rédigés dans une même langue. » par « cette leçon explique comment isoler les mots les plus significatifs des mots fréquents dans n’importe quel document rédigé dans une même langue ».
Ligne 28 : Remplacer « blogue » par « blog »

Connaissances préalables recommandées

Ligne 34 : Remplacer « Vous devrez au moins être à l’aise confortable avec » par « être à l’aise avec »
Ligne 34 : Remplacer « pour tirer le maximum » par « tirer profit »
Ligne 36 : Remplacer « feuilles de calcul en format CSV » en « feuilles de calcul au format CSV »

Avant de commencer

Ligne 40 : Enlever « d’un coup » dans la phrase « vous obtiendrez d’un coup le langage Python 3.6 »
Ligne 40 : « La méthode à suivre est expliquée dans la leçon Text Mining in Python through the HTRC Feature Reader (en anglais). » Vérifier le lien de « Text Mining in Python… » qui ne fonctionne pas.

Jeu de données

Ligne 45 : Remplacer « Tf-idf, comme bien d'autres algorithmes informatiques, est plus facile à comprendre en suivant un exemple » par « Pour comprendre Tf-idf, prenons un exemple »
Ligne 45 : Je trouve que la phrase « J'ai donc préparé pour vous un jeu de données formé de 366 nécrologies historiques publiées dans le New York Times et moissonnées sur le site https://archive.nytimes.com/www.nytimes.com/learning/general/onthisday/ sur lequel, à chaque jour de l'année, le New York Times mettait en vedette la nécrologie d'une personne dont c'était l'anniversaire de naissance.» est trop longue. Préférer « Sur ce site, le New York Times publiait chaque jour la nécrologie d’une personne dont c’était l’anniversaire de naissance. »
Ligne 47 : Le lien de « Intro to BeautifulSoup » ne fonctionne pas.
Ligne 47 : Attention dans « Les fichiers requis pour suivre la leçon, dont ce jeu de données, peuvent être téléchargés ici » Le lien sous « ici » ne semble pas fonctionner et diffère de la version anglaise.
Ligne 47 : Phrase trop longue « Les données moissonnées sont aussi disponibles dans le répertoire "necrologies" qui contient les fichiers '.html' téléchargés à partir du site web "On This Day" de 2011, et dans le répertoire "txt", qui contient des fichiers '.txt' où l'on retrouve le corps du texte de chaque nécrologie. »

à remplacer par :

« Les données moissonnées sont également disponibles à deux endroits :

dans le répertoire « necrologies » contenant les fichiers '.html' téléchargés à partir du site web « On This Day » de 2011
dans le répertoire "txt" contenant des fichiers '.txt'.

Dans ces derniers se trouve le corps du texte de chaque nécrologie. Ces fichiers ont été générés à l'aide du module Python nommé BeautifulSoup. Son utilisation est expliquée dans une autre leçon du Programming Historian, Intro to BeautifulSoup (en anglais). »

Ligne 49 : Remplacer « Ce corpus nécrologique constitue un artéfact historique en soi. » par « Ce corpus nécrologique est un artéfact historique. »
Phrase trop longue à revoir : « Il incarne, d'une certaine manière, (ou en quelque sorte) la façon dont les questions d'inclusion et de représentation peuvent affecter la décision de publier, ou non, la nécrologie d'un individu et celle de mettre en évidence cette publication de nombreuses années plus tard. » à remplacer par « La décision de publier ou non la nécrologie d’un individu ainsi que celle de mettre en évidence cette publication de nombreuses années plus tard sont affectées par des questions d’inclusion et de représentation. Ces questions sont incarnées par le corpus.

Définition et description de Tf-idf

Ligne 53 : Oubli d’une phrase que je traduis ici : « Comme il se doit, Spärck Jones a fait l'objet d'une notice nécrologique "Overlooked No More" en janvier 2019. »
Ligne 55 : « dans la ville de Idf » à remplacer par « dans une ville nommée Idf ».
Ligne 55 : « il vous faudra un moyen de faire la différence entre ce qui est bon, sans plus, et ce qui est particulièrement (ou uniquement) bon. » à remplacer par « sans plus, typiquement bon ou seulement bon »
Ligne 62 : « ni bonne, ni originale », remplacer « originale » par « typique » ?
Ligne 86 : « Le problème est* que la plupart des mots »
Ligne 86 : « C'est que la plupart des langues » à remplacer par « en effet, la plupart »
Ligne 86 : « les textent » à remplacer par « les textes »
Ligne 86 : Remplacer « cette même nécrologie » par « cette première nécrologie »
Ligne 86 : toutes les occurrences de « pointage(s) » à remplacer par « pondération(s) »
Ligne 86 : si remplacement par « pondération », ajouter un e à « élevées* »
Ligne 101 : Remarque : les expressions étrangères sont à noter en italique ? « Ironclad Manufacturing Company »

Fonctionnement de l'algorithme

Ligne 107 : Remplacer « implanté » par « implémenté » et d’une manière générale implantation par implémentation (ligne 107 et autres)
Ligne 107 : « applis » à remplacer par « applications »
Ligne 107 : « en ordre alphabétique » à remplacer par « par ordre alphabétique »
Ligne 107 : avant « une mesure appelée la fréquence de document », ajouter « il s’agit d’une mesure appelée fréquence de document ».
Ligne 152 : « elles expliquent le fonctionnement d'un algorithme plus clairement que n'importe quel paragraphe de texte. » à remplacer par « plus clairement que n'importe quelle explication textuelle bien écrite »
Ligne 152 : Mauvais lien pour « normalisation »
Ligne 152 : « Notez que les valeurs idf sont plus élevées lorsque les documents apparaissent dans moins de documents (c'est-à-dire, lorsque leurs valeurs Df sont basses), mais que les valeurs idf sont toutes entre 1 et 6. » Ce n’est pas très compréhensible…
Ligne 189 : « Et bien entendu » peut-être trop oral ?
Ligne 189 : « C'est ce qui nous permet de savoir quels mots » à remplacer par « reconnaître les mots qui »

Comment exécuter tf_idf en Python 3

Ligne 211 : « Un mot au sujet des noms de variables » à remplacer par « Concernant le choix des noms de variables il existe deux méthodes courantes qui donne respectivement la priorité à la commodité puis à la sémantique. »
Ligne 211 : « pour sauver du temps d'entrée » à remplacer par « pour gagner du temps en entrée »
Ligne 213 : « en ordre de jour et de mois » à remplacer par « par ordre journalier et mensuel »
Ligne 213 : « pour classer les fichiers en ordre numérique ascendant » à remplacer par « par ordre numérique ascendant »
Ligne 230 : « une classe d'objets Python développée en programmation orientée-objet; » remplacer le point-virgule par un point puis commencer une nouvelle phrase.
Ligne 230 : « J'aurai plus à dire au sujet de ces paramètres » à remplacer par « J’aurai plus de choses à dire »
Ligne 230 : « rappelons qu'il s'agit de de mots structurels communs) » il y a un de en trop.
Ligne 240 : « Nous avons cependant besoin d'accéder à toutes les valeurs alors le prochain bloc de code invoque » à remplacer par « Nous avons cependant besoin d'accéder à toutes les valeurs. Le prochain bloc de code invoque donc* la méthode… »
Ligne 250 : « chaque rangée » à remplacer par « chaque ligne », d’une manière générale remplacer rangée par ligne.
Ligne 252 : « elle suit le même ordre que celui dans lequel documents_transformes_tableau utilise » à remplacer par « elle suit le même ordre utilisé par le document documents_transformes_tableau » pour emmagasiner les données. »
Ligne 252 : Le lien ne fonctionne pas « Visualizing Data with Bokeh and Pandas »

Interpréter les listes de mots: meilleures pratiques et mises en garde

Ligne 286 : « ces listes de mots peuvent être très éloquentes » remplacer éloquentes par « significatives » ? puis enlever le point-virgule à remplacer par une virgule.
Ligne 288 : « ayant vécus* » au pluriel
Ligne 292 à 312 : Revoir la présentation qui est censée être un tableau
Ligne 314 : « Passons outre à ces détails » à remplacer par « Ne tenons pas compte de ces détails »
Ligne 316 : « On pourrait facilement sauter aux conclusions. » à remplacer par « On pourrait facilement tirer des conclusions hâtives »
Ligne 316 : « En poussant un peu plus loin » à remplacer par « En allant un peu plus loin »
Ligne 318 : « Chacune de ces observations suscite une question à approfondir, mais sans justifier des généralisations. » à remplacer par « Chacune de ces observations nécessitent d’être approfondie et ne doit pas impliquer une généralisation ».
Ligne 322 : « je devrais tout de même asujettir mes généralisations à l'épreuve » à remplacer par « assujettir » ou « je devrais tout de même tester minutieusement mes généralisations avant de tirer des conclusions »

1. En tant qu'outil d'exploration ou de visualisation

Ligne 330 : « Nous avons déjà démontré que des listes de mots accompagnés de pointages » à remplacer par « Nous avons déjà démontré que des listes de mots accompagnées de pondérations »

2. Pour calculer la similarité des textes et des ensembles de traits caractéristiques

Ligne 334 : « pour les mots associés à la signature thématique d'un texte » à remplacer par « pour les mots associés au contenu thématique d’un texte » ?

3. En tant qu'étape de prétraitement

Ligne 340 : « Les paragraphes ci-dessus ont effleuré » à remplacer par « ont évoqué »

1. Mots vides ('stopwords')

Ligne 352 : « très bas en raison de leur ubiquité, quoique vos autres réglages pourraient influencer ces pointages. » à remplacer par « très bas en raison de leur ubiquité, même si vos autres réglages peuvent influencer ces pointages. »

2. Modèles thématiques

Ligne 386 : « Projet Overview » le lien ne fonctionne pas.

Notes

Ligne 456 : « blogue » à remplacer par « blog »
Ligne 456 : « tandis que celles pour les dates entre le 1er février et de 31 décembre » à remplacer par « et le* 31 décembre »

datalogism commented 2 years ago

Hello, Vous m'avez surpris je ne m'attendais pas à recevoir vos deux revues dans la même demi-heure !

En tout cas merci à vous deux pour ce travail attentif et detaillé, je vois que vous vous êtes posé pas mal de questions et que vous avez été jusqu'à vérifier des détails importants les liens hypertextes.

Je vais tenter pour ma part de compiler vos deux retours dans la semaine, je m'occuperai par la même occasion de vous relancer si certaines de vos remarques divergent.

Encore merci @remicardon @amdlz :)

remicardon commented 2 years ago

@datalogism pour info, j'ai retiré une remarque de ma relecture (celle sur l'exemple d'illustration de la racinisation). Ce que je disais était erroné et venait d'un manque d'expérience avec cette étape appliquée à l'anglais.

anisa-hawes commented 2 years ago

Hello all,

Please note that this lesson's .md file has been moved to a new location within our Submissions Repository. It is now found here: https://github.com/programminghistorian/ph-submissions/blob/gh-pages/fr/en-cours/traductions/

A consequence is that this lesson's preview link has changed. It is now: http://programminghistorian.github.io/ph-submissions/fr/en-cours/traductions/analyse-de-documents-avec-tfidf

Please let me know if you encounter any difficulties or have any questions.

Very best, Anisa

datalogism commented 2 years ago

Thank you @anisa-hawes !

datalogism commented 2 years ago

Hello ! Désolé j'ai eu quelques imprévus ces derniers jours et vous reponds donc seulement. J'ai commencé la compilation de vos commentaires et vous propose de vous en faire un retour en trois temps afin de ne pas avoir à faire un effet bloc qui peux parfois être chronophage et effrayant !

J'ai donc annoté le tout en utilisant :

✔️: lorsque la modification proposé ne souleve pas de problème et que la correction peut être apporté telle quelle
🧐 : lorsque j'ai trouvé un truc a ajouté que vous n'aviez pas mentionné
:point_right: pour une proposition ou une remarque concernant une proposition que avez pu faire
❓ : lorsque la remarque soulevait quelques questions et mentionné vos noms à coté afin que puissiez me redire ce que vous en pensez.

1. Remarques générales

Erreurs récurrentes soulevées par les reviewers :

1.1. ✔️Surtout au début, il y a une hésitation entre tf-idf et tf_idf (à choisir entre les deux je recommande tf-idf)
1.2. ✔️Je ne suis pas à l'aise avec le mot "pointage" (pour traduire "score") > si souhait de ne pas calquer le "score" anglais, valeur ? ("valeur" est déjà utilisé à plusieurs reprises dans le même contexte)

:point_right: va pour score, peut être plus adapté que pondération et de toute manière utilisé aussi dans la litt.. francophone à ce sujet
1.3. ✔️implement / implementation se disent implémenter / implémentation dans ce contexte en français (et non pas implanter / implantation, ce qui peut être une bonne traduction dans un autre contexte)
1.4. ✔️Natural language processing se traduit par Traitement automatique des langues (naturelles), l'acronyme en français est TAL, en conséquence "traitement du langage naturel" ne convient pas.
1.5. ✔️ À plusieurs reprises, "information retrieval" est traduit par "extraction d'informations". Or l'extraction d'informations est un autre domaine. Information retrieval se traduit en "recherche d'informations".
1.6. ✔️ En français, les deux points, le point d’exclamation, le point-virgule, le point d’interrogation suivent un espace insécable.
1.7. ✔️ On utilise ensuite les guillemets français « … » au lieu des guillemets simples.

2. Remarques spécifiques (par section)

2.1. Aperçu

2.1.1.✔️ ligne 26 : À la place de « couvre », je propose « présente »
2.1.2.✔️ Ligne 28 : Remplacer « cette leçon explique comment isoler les mots les plus importants d’un document des mots qui ont tendance à apparaître fréquemment dans de nombreux documents rédigés dans une même langue. » par « cette leçon explique comment isoler les mots les plus significatifs des mots fréquents dans n’importe quel document rédigé dans une même langue ».

:point_right: Ok reformulation qui ajoute en précision.
2.1.3. ✔️ Ligne 28 : Remplacer « blogue » par « blog »

:point_right:En vérifiant sur [le dictionnaire des francophones](https://www.dictionnairedesfrancophones.org/form/blogue/sense/wkt%3Asense%2F75cbe102c6d7db09805148f4eebd0e35) j'ai pu comprendre que c'était plutôt lié au Français Canadien
2.1.4. ✔️ pourquoi "d'une discussion" ? Traduire "heard" par "avez rencontré" ici suffit.

:point_right: à remplacer par "entendu parler"
2.1.5.✔️ Forage de textes > fouille de textes
2.1.6.:question:@[remicardon](https://github.com/remicardon) computational methods : méthodes numériques > méthodes automatiques

:point_right: Pourquoi pas "méthodes computationnelles"
2.1.7. 🧐 "l’analyse textuelle par ordinateur" > analyse textuelle assistée par ordinateur ?

2.2. Préparation

Connaissances préalables recommandées

2.2.1. 🧐 "a été programmé en Python 3.6"> Ne devrait-on pas dire "développé avec Python 3.6" ?
2.2.2 :question:@[remicardon](https://github.com/remicardon) familiarité ? > plutôt "connaissance/expérience préalable de python ou d'un langage..." ? :point_right: "être familier avec"
2.2.3.✔️confortable > à l'aise

:point_right: Remplacer « Vous devrez au moins être à l’aise confortable avec » par « être à l’aise avec »
2.2.4. :question: @[remicardon](https://github.com/remicardon) compléter > terminer ?

:point_right: " ou d'avoir suivi"
2.2.5.✔️Ligne 34 : Remplacer « pour tirer le maximum » par « tirer profit »
2.2.6.✔️ Ligne 36 : Remplacer « feuilles de calcul en format CSV » en « feuilles de calcul au format CSV »
2.2.7. :question: @remicardon lire ces fichiers CSV > visualiser ces fichiers CSV

:point_right: Il ne s'agit pas seulement de les visualiser mais de les "charger" en mémoire, pour moi à laisser comme tel
2.2.8. :question: @remicardon un [carnet Jupyter](https://jupyter.org/). :point_right: laissé comme tel " notebook Jupyter" dans d'autres traductions
2.2.9. 🧐 certaines des [leçons d’introduction à la programmation en Python](https://programminghistorian.org/en/lessons/introduction-and-installation) du Programming Historian (en anglais pour le moment).

:point_right: Ces leçons ont été traduites depuis
2.2.10 :exclamation:🧐 [@spapastamkou ](https://github.com/spapastamkou) [“Learn Python3” de Codecademy](https://www.codecademy.com/learn/learn-python-3) Ne pourrait-on pas renvoyer vers une ressource francophone ? genre https://www.fun-mooc.fr/fr/cours/python-3-des-fondamentaux-aux-concepts-avances-du-langage/

Avant de commencer

2.2.11.✔️"qui contient notre version de tf-idf" : qui est le "notre" dans "notre version" ici ? > "la version que nous présentons ici" ?
2.2.12.✔️"obtenir toute cette fonctionnalité" > installer toutes ces dépendances
2.2.13.✔️(ou mieux) > ou une version plus récente ?
2.2.14.🧐 [@spapastamkou ](https://github.com/spapastamkou) [Text Mining in Python through the HTRC Feature Reader](http://programminghistorian.github.io/en/lessons/text-mining-with-extracted-features) :point_right: Lien mort, à remplacer par un lien du web francophone : https://openclassrooms.com/fr/courses/6204541-initiez-vous-a-python-pour-lanalyse-de-donnees/6204548-installez-python-et-anaconda ?
2.2.15. :question:[@amdlz](https://github.com/amdlz) Ligne 40 : Enlever « d’un coup » dans la phrase « vous obtiendrez d’un coup le langage Python 3.6 »

:point_right: Demande d'être adapté au point 2.2.14

Jeu de données

2.2.16. ✔️générés > produits
2.2.17.✔️vitrine vers les textes > vers les personnes (... mises en valeur...)
2.2.18.✔️"il est facile" > "banale"/"simple"
2.2.19. ✔️Ligne 45 : Remplacer « Tf-idf, comme bien d'autres algorithmes informatiques, est plus facile à comprendre en suivant un exemple » par « Pour comprendre Tf-idf, prenons un exemple
2.2.20. :question:[@amdlz](https://github.com/amdlz) :Ligne 45 : Je trouve que la phrase « J'ai donc préparé pour vous un jeu de données formé de 366 nécrologies historiques publiées dans le New York Times et moissonnées sur le site https://archive.nytimes.com/www.nytimes.com/learning/general/onthisday/ sur lequel, à chaque jour de l'année, le New York Times mettait en vedette la nécrologie d'une personne dont c'était l'anniversaire de naissance.» est trop longue. Préférer « Sur ce site, le New York Times publiait chaque jour la nécrologie d’une personne dont c’était l’anniversaire de naissance. »

:point_right: A la fois cela renvois aux jeux de données, et en décrit le contexte
2.2.21✔️Ligne 47 : Le lien de « Intro to BeautifulSoup » ne fonctionne pas.

:point_right: Le tutoriel a été retiré car le site sur lequel il reposait n'existe plus on va devoir supprimer la référence
2.2.22✔️ Ligne 47 : Attention dans « Les fichiers requis pour suivre la leçon, dont ce jeu de données, peuvent être téléchargés ici » Le lien sous « ici » ne semble pas fonctionner et diffère de la version anglaise.

:point_right: Les données sont bien ici pourtant : https://github.com/programminghistorian/ph-submissions/blob/gh-pages/assets/tf-idf/lecon-fichiers.zip

[@spapastamkou ](https://github.com/spapastamkou) tu sais dire pourquoi le lien ne fonctionne pas ?
2.2.23✔️ Ligne 47 : Phrase trop longue « Les données moissonnées sont aussi disponibles dans le répertoire "necrologies" qui contient les fichiers '.html' téléchargés à partir du site web "On This Day" de 2011, et dans le répertoire "txt", qui contient des fichiers '.txt' où l'on retrouve le corps du texte de chaque nécrologie. »

à remplacer par :

« Les données moissonnées sont également disponibles à deux endroits :

dans le répertoire « necrologies » contenant les fichiers '.html' téléchargés à partir du site web « On This Day » de 2011
dans le répertoire "txt" contenant des fichiers '.txt'.

Dans ces derniers se trouve le corps du texte de chaque nécrologie. Ces fichiers ont été générés à l'aide du module Python nommé BeautifulSoup. Son utilisation est expliquée dans une autre leçon du Programming Historian, Intro to BeautifulSoup (en anglais). »

:point_right: Oui plus lisible

2.2.24:question:[@amdlz](https://github.com/amdlz) Ligne 49 : Remplacer « Ce corpus nécrologique constitue un artéfact historique en soi. » par « Ce corpus nécrologique est un artéfact historique.

:point_right:Je laisserai comme ça pour ma part
2.2.25:question:🧐 "artéfact " > "artefact "
2.2.26✔️ Phrase trop longue à revoir : « Il incarne, d'une certaine manière, (ou en quelque sorte) la façon dont les questions d'inclusion et de représentation peuvent affecter la décision de publier, ou non, la nécrologie d'un individu et celle de mettre en évidence cette publication de nombreuses années plus tard. » à remplacer par « La décision de publier ou non la nécrologie d’un individu ainsi que celle de mettre en évidence cette publication de nombreuses années plus tard sont affectées par des questions d’inclusion et de représentation. Ces questions sont incarnées par le corpus.

:point_right: D'accord avec toi, je propose : "Le choix éditorial des nécrologies est le reflet de choix d'inclusion et de représentation historiquement situé. Et cela à un fort impact sur le corpus."

Définition et description de Tf-idf

2.2.26🧐 Les deux premiers paragraphes ont été fusionnés et il manque des informations (non cruciales pour le tutoriel) du premier paragraphe.

:point_right: bien vu, on va laisser comme ça
2.2.27✔️ Ligne 53 : Oubli d’une phrase que je traduis ici : « Comme il se doit, Spärck Jones a fait l'objet d'une notice nécrologique "Overlooked No More" en janvier 2019. »
2.2.28 ✔️ Ligne 55 : « dans la ville de Idf » à remplacer par « dans une ville nommée Idf ».
2.2.29✔️ Ligne 55 : « il vous faudra un moyen de faire la différence entre ce qui est bon, sans plus, et ce qui est particulièrement (ou uniquement) bon. » à remplacer par « sans plus, typiquement bon ou seulement bon »
2.2.30✔️ Ligne 62 : « ni bonne, ni originale », remplacer « originale » par « typique » ?
2.2.31. :question:@[remicardon](https://github.com/remicardon) Ligne 86 : « Le problème est* que la plupart des mots »

:point_right: je n'ai pas compris cette remarque
2.2.32.✔️ Ligne 86 : « C'est que la plupart des langues » à remplacer par « en effet, la plupart »
2.2.33. ✔️Ligne 86 : « les textent » à remplacer par « les textes »
2.2.34. 🧐Phrase un peu longue : "qui forment l'ossature grammaticale des textes et qui apparaissent donc partout, quels que soient les sujets dont les textent traitent" > ". Ces mots forment l'ossature grammaticale des textes et sont fréquemment utilisés, quels que soient les sujets dont les textes traitent"
2.2.35.:question:@remicardon Ligne 86 : Remplacer « cette même nécrologie » par « cette première nécrologie »

:point_right: à la fois ça se dit aussi non ?
2.2.36. :question:[@amdlz](https://github.com/amdlz)Ligne 86 : toutes les occurrences de « pointage(s) » à remplacer par « pondération(s) »

:point_right: Harmonisons en utilisant donc "score" si tu es ok
2.2.37.:question:[@amdlz](https://github.com/amdlz) Ligne 86 : si remplacement par « pondération », ajouter un e à « élevées* »

:point_right: Cf. 2.2.36.
2.2.38.✔️Ligne 101 : Remarque : les expressions étrangères sont à noter en italique ? « Ironclad Manufacturing Company »

A vos claviers !

remicardon commented 2 years ago

Hello @datalogism , voici mes réponses. J'ai répondu aux deux derniers types de remarques qui concernaient ma relecture, et à tous les ajouts proposés qui n'étaient pas adressés à @spapastamkou .

1.2. va pour score, peut être plus adapté que pondération et de toute manière utilisé aussi dans la litt.. francophone à ce sujet Oui score convient tout à fait aussi.
2.1.6. Pourquoi pas "méthodes computationnelles" Il me semble que "computationnel" ne s'utilise pas de manière aussi répandue qu'en anglais. Ce ne serait peut-être pas erroné de l'utiliser ici, mais ça me semble étrange.
2.1.7. "l’analyse textuelle par ordinateur" > analyse textuelle assistée par ordinateur ? Oui ça paraît bien.
2.2.1. "a été programmé en Python 3.6"> Ne devrait-on pas dire "développé avec Python 3.6" ? Les deux me paraissent corrects.
2.2.3. "être familier avec" Familier utilisé de cette manière est un anglicisme, pas bien ancré : http://bdl.oqlf.gouv.qc.ca/bdl/gabarit_bdl.asp?id=4443 Si on souhaite utilise un dérivé de "familier", dans ce cas "familiarisé" convient.
2.2.4. " ou d'avoir suivi" Oui ça paraît bien aussi.
2.2.7. Il ne s'agit pas seulement de les visualiser mais de les "charger" en mémoire, pour moi à laisser comme tel Je faisais référence à la traduction de "You can also use the pandas library in python to view the CSVs." "lire" en français peut traduire "load" ou "view", mais la phrase en anglais n'est pas ambiguë. Cela dit laisser comme tel n'est pas vraiment un problème.
2.2.8. laissé comme tel " notebook Jupyter" dans d'autres traductions Je ne vois pas de remarque sur ce point donc je ne comprends pas ce qui est demandé ici, mais carnet ou notebook conviennent tous les deux (exemple d'utilisation de "carnet" :) : https://programminghistorian.org/fr/lecons/introduction-aux-carnets-jupyter-notebooks)
2.2.25. "artéfact " > "artefact " Artefact est plus courant mais les deux sont corrects.
2.2.31. je n'ai pas compris cette remarque "le problème, c'est que la plupart des mots" a dû me gêner et je préférais "le problème est que la plupart des mots", mais effectivement il n'y a pas de problème particulier ici.
2.2.34. ok avec la proposition
2.2.35. à la fois ça se dit aussi non ? Oui, on peut laisser comme ça.

amdlz commented 2 years ago

Hello @datalogism, voici mes réponses :

2.2.20. 👉 A la fois cela renvois aux jeux de données, et en décrit le contexte Oui, ma proposition était simplement de couper la phrase en 2 : « J'ai donc préparé pour vous un jeu de données formé de 366 nécrologies historiques publiées dans le New York Times et moissonnées sur le site https://archive.nytimes.com/www.nytimes.com/learning/general/onthisday/. Sur ce site, le New York Times publiait chaque jour la nécrologie d’une personne dont c’était l’anniversaire de naissance. »
2.2.22 Quand je clique sur « ici », je suis dirigée vers http://programminghistorian.github.io/assets/tf-idf/lecon-fichiers.zip, lien différent de celui que tu a noté.
2.2.24 Ok ça me va.
2.2.26 Je suis d’accord avec ta proposition.
2.2.31. Cette remarque m'était destinée. « le problème, c’est que » me semblait être du langage oral et je préférais « le problème est que ».
2.2.34. Je proposais à nouveau de couper la phrase originale en 2 : La plupart des langues reposent sur une utilisation massive de mots structurels comme les articles, les conjonctions et les prépositions (dont the, as, of, to et from en anglais). Ces mots forment l'ossature grammaticale des textes et sont fréquemment utilisés, quels que soient les sujets dont les textes traitent.
2.2.36. Ok pour score.

spapastamkou commented 2 years ago

J'ai parcouru rapidement les échanges, dont je vous remercie, je reviens dès que possible avec quelques brefs commentaires surtout que j'ai vu que je suis interpellée:) Au plus tard d'ici vendredi, merci pour votre compréhension.

datalogism commented 2 years ago

Merci beaucoup @amdlz :) j'attends le retour de @remicardon et go pour la prochaine vague

remicardon commented 2 years ago

@datalogism Il y est déjà :)

datalogism commented 2 years ago

@remicardon autant pour moi ! merci :)

datalogism commented 2 years ago

En voici la deuxième vague de retours :)

Fonctionnement de l'algorithme

2.3.1. ✔️ calculs additionnels > calculs supplémentaires
2.3.2. ✔️Référence au billet de Ben Schmidt, ajouter la mention "en anglais" comme lors des précédents renvois à des ressources en anglais
2.3.3. ✔️@[remicardon](https://github.com/remicardon) Dans cette section, l'équation tf-idf dit qu'on multiplie tfi par idfi, et plus bas avec le tableau on multiplie par la colonne "count/décompte". L'information est déductible, mais il me semble qu'il serait bon d'expliciter que tf et décompte dénotent la même chose (ou renommer la colonne "count/décompte" en "tf" ?) dans les calculs détaillés ici, et ce d'autant plus que l'autre terme "df" est à la fois dans les équations et dans le tableau en tant qu'en-tête de colonne.

:point_right:Oui tu as raison, d'autant que tf est quasi-transparent pour un anglophone (term frequency), je propose : Le tableau ci-dessous présente les décomptes d’occurrences bruts pour les 30 premiers mots qui apparaissent dans la nécrologie de Nellie Bly, en ordre alphabétique (tf)

Ainsi que l'ajout de "(tf)" après Décompte dans chaque tableau
2.3.4.✔️ "les plus forts pointages" > scores/valeurs les plus élevé(e)s ?
2.3.5.✔️Ligne 107 : Remplacer « implanté » par « implémenté » et d’une manière générale implantation par implémentation (ligne 107 et autres)
2.3.6.✔️ Ligne 107 : « applis » à remplacer par « applications »
2.3.7.✔️Ligne 107 : « en ordre alphabétique » à remplacer par « par ordre alphabétique »
2.3.8. ✔️ Ligne 107 : avant « une mesure appelée la fréquence de document », ajouter « il s’agit d’une mesure appelée fréquence de document ».
2.3.9. . ✔️ Ligne 152 : « elles expliquent le fonctionnement d'un algorithme plus clairement que n'importe quel paragraphe de texte. » à remplacer par « plus clairement que n'importe quelle explication textuelle bien écrite »
2.3.10. :question: remicardon Ligne 152 : Mauvais lien pour « normalisation »

:point_right: hum... pas de page Wikipédia en français sur le sujet, je propose : D’autres méthodes de normalisation pourraient produire des échelles de valeurs différentes : en utilisant la [valeur centrée réduite](https://fr.wikipedia.org/wiki/Variable_centr%C3%A9e_r%C3%A9duite), mais il en existe d'autres ([cf. article Wikipédia en anglais sur le sujet](https://en.wikipedia.org/wiki/Normalization_(statistics)))
2.3.11. ✔️ [@amdlz](https://github.com/amdlz)Ligne 152 : « Notez que les valeurs idf sont plus élevées lorsque les documents apparaissent dans moins de documents (c'est-à-dire, lorsque leurs valeurs Df sont basses), mais que les valeurs idf sont toutes entre 1 et 6. » Ce n’est pas très compréhensible…

:point_right: Je propose :

Notez que les valeurs idf sont plus élevées lorsque les documents apparaissent dans moins de documents (c'est-à-dire, lorsque leurs valeurs Df sont basses). Les valeurs ainsi obtenues dans notre exemple sont comprises entre 1 et 6.
2.3.11. ✔️[@amdlz](https://github.com/amdlz) Ligne 189 : « Et bien entendu » peut-être trop oral ?

:point_right: On peut supprimer l'expression sans déformer le sens de la phrase
2.3.12.✔️ Ligne 189 : « C'est ce qui nous permet de savoir quels mots » à remplacer par « reconnaître les mots qui »
2.3.13.[@amdlz](https://github.com/amdlz) la plupart des calculatrices en ligne et des applis de calcul pour appareils mobiles en sont capables

:point_right: "la plupart des calculatrices en sont capable" ne suffirait pas ?
2.3.14.🧐 plus de details sur ce sujet > si vous souhaitez vous pencher sur la question
2.3.15.🧐 programmation orientée-objet > programmation orientée objet

Comment exécuter tf_idf en Python 3

2.3.16. ✔️ Ligne 211 : « Un mot au sujet des noms de variables » à remplacer par « Concernant le choix des noms de variables il existe deux méthodes courantes qui donne respectivement la priorité à la commodité puis à la sémantique. »
2.3.17. :question: [@amdlz](https://github.com/amdlz) Ligne 211 : « pour sauver du temps d'entrée » à remplacer par « pour gagner du temps en entrée »

:point_right: Je propose : "Pour gagner du temps lors de l'écriture du programme"
2.3.18. ✔️ Ligne 213 : « en ordre de jour et de mois » à remplacer par « par ordre journalier et mensuel »
2.3.19. ✔️ Ligne 213 : « pour classer les fichiers en ordre numérique ascendant » à remplacer par « par ordre numérique ascendant »
2.3.20.✔️ Ligne 230 : « une classe d'objets Python développée en programmation orientée-objet; » remplacer le point-virgule par un point puis commencer une nouvelle phrase.
2.3.21.✔️ Ligne 230 : « J'aurai plus à dire au sujet de ces paramètres » à remplacer par « J’aurai plus de choses à dire »
2.3.22.✔️ Ligne 230 : « rappelons qu'il s'agit de de mots structurels communs) » il y a un de en trop.
2.3.23.✔️ Ligne 240 : « Nous avons cependant besoin d'accéder à toutes les valeurs alors le prochain bloc de code invoque » à remplacer par « Nous avons cependant besoin d'accéder à toutes les valeurs. Le prochain bloc de code invoque donc* la méthode… »
2.3.24.✔️ Ligne 250 : « chaque rangée » à remplacer par « chaque ligne », d’une manière générale remplacer rangée par ligne.
2.3.25.✔️ Ligne 252 : « elle suit le même ordre que celui dans lequel documents_transformes_tableau utilise » à remplacer par « elle suit le même ordre utilisé par le document documents_transformes_tableau » pour emmagasiner les données. »
2.3.26.:no_entry_sign: Ligne 252 : Le lien ne fonctionne pas « Visualizing Data with Bokeh and Pandas »

:point_right: La leçon existe bien, le lien se base sur un chemin relatif qui sera résolu lorsque la leçon sera publiée
2.3.27.✔️le nom du répertoire > l'emplacement du répertoire / le chemin du répertoire
2.3.28.❓ [remicardon](https://github.com/remicardon) construire des chemins complets > afficher des chemins complets

:point_right: Pas d'accord avec toi, ici le programme construit bien des chaines de caractères
2.3.28.❓ [remicardon](https://github.com/remicardon) je retourne la longueur > je renvoie la longueur

:point_right: là pour le coup je serai d'avis de traduire cela par "j'affiche la longueur" le mieux serait peut être même de partir sur "je calcule et j'affiche"
2.3.29. ✔️ remicardonParagraphe suivant, la ligne "with open(txt_file) as f:" n'est pas expliquée. Son fonctionnement n'étant pas intuitif, je pense qu'il serait bon d'ajouter une explication.

:point_right: je propose : Le prochain bloc de code contient une autre opération de type boucler-et-ajouter qui parcourt la liste de noms de fichiers et ouvre chacun d’entre eux. La méthode
```
with open(txt_file) as f
```
permet notamment d'ouvrir un fichier, d'effectuer une action sur celui-ci et de le refermer, ce que nous faisons ici sur tout les fichiers de notre liste.
2.3.30. ❓ remicardon À mon sens "Tokenization" peut se traduire en "tokenisation", l'usage de ce mot est très courant dans le domaine. Je n'ai jamais rencontré "analyse lexicale" dans le sens présenté par la page Wikipedia vers laquelle le tutoriel renvoie, cela dit en lisant l'article cette expression semble pouvoir faire l'affaire. L'article propose également "segmentation", mais on utilise ce mot plutôt pour décrire l'étape de découpage d'un texte en phrases. "Division en lexèmes" ne me semble pas un équivalent adapté ici. La tokenisation n'implique pas en soi d'éliminer la ponctuation, les signes de ponctuation peuvent être eux aussi des tokens. Ici, la division du texte en lexèmes n'est donc pas la tokenisation mais le résultat de deux traitements : la tokenisation et la suppression de la ponctuation. On peut arguer que dans certaines acceptions du mot "lexème", son sens englobe aussi les signes de ponctuation, mais cette ambigüité me semble constituer un argument de plus contre son utilisation. :point_right: D'accord avec toi, par contre la page Wiki de l'article originale renvoies vers le paragraphe token qui a son équivalent dans l'article français : Unité lexicale > https://fr.wikipedia.org/wiki/Analyse_lexicale#Unit%C3%A9_lexicale.

Si nous partons sur token > penser tout de même à l'ajouter entre guillemets
2.3.31. ✔️ [remicardon](https://github.com/remicardon) "les différentes mesures calculées pour chaque mot" : ici "les différentes mesures" peut laisser penser que plusieurs calculs sont faits pour chaque mot, or seul le tf-idf est calculé.

:point_right: Ok à remplacer par : "et l’ordre des tf-idf obtenu pour chaque mot."
2.3.32.🧐 Notez que, comme dans tous les langages de programmation, il existe plusieurs manières de compléter chacune des étapes que nous étudierons ci-dessous.

:point_right: Je propose : "Notez que cette procédure est dépendante du langage de programmation utilisé."
2.3.33.🧐 C’est tout le travail de mise en place dont nous avons besoin

:point_right: Superflu ?
2.3.34. [remicardon](https://github.com/remicardon) pour convertir les chaînes de caractères qui représentent nos documents en valeurs tf-idf

:point_right: remplacer par : "pour calculer les scores tf-idf liés au contenu de nos documents"

Interpréter les listes de mots: meilleures pratiques et mises en garde

2.3.35. ✔️ Ligne 286 : « ces listes de mots peuvent être très éloquentes » remplacer éloquentes par « significatives » ? puis enlever le point-virgule à remplacer par une virgule.
2.3.36. ✔️Ligne 288 : « ayant vécus* » au pluriel
2.3.37..:no_entry_sign: Ligne 292 à 312 : Revoir la présentation qui est censée être un tableau

:point_right: Probleme résolu
2.3.38. ✔️Ligne 314 : « Passons outre à ces détails » à remplacer par « Ne tenons pas compte de ces détails »
2.3.39. ✔️Ligne 316 : « On pourrait facilement sauter aux conclusions. » à remplacer par « On pourrait facilement tirer des conclusions hâtives »
2.3.40. ✔️Ligne 316 : « En poussant un peu plus loin » à remplacer par « En allant un peu plus loin »
2.3.41. ✔️Ligne 318 : « Chacune de ces observations suscite une question à approfondir, mais sans justifier des généralisations. » à remplacer par « Chacune de ces observations nécessitent d’être approfondie et ne doit pas impliquer une généralisation ».
2.3.42. ✔️Ligne 322 : « je devrais tout de même asujettir mes généralisations à l'épreuve » à remplacer par « assujettir » ou « je devrais tout de même tester minutieusement mes généralisations avant de tirer des conclusions »
2.3.43. 🧐 Ajout de virgule : des questions de recherche mais > des questions de recherche, mais
2.3.44. ✔️Dans le titre : espace insécable à ajouter entre "mots" et ":"
2.3.45. ✔️ remicardon Le segment "(The section of this tutorial titled Scikit-Learn Settings says more about how you can treat a named entity or a phrase as a single token.)" est absent de la version française.

:point_right: A ajouter donc (La section "Paramètres Scikit-Learn" approfondit les questions liées aux entités nommées et aux phrases ne comportant qu'un seul "token".)

spapastamkou commented 2 years ago

Hello, avant toute chose, merci beaucoup @remicardon et @amdlz pour vos relectures, commentaires et échanges qui aideront notre rédacteur en charge du suivi de cette traduction, @datalogism, à préparer la publication de la version FR de cette leçon. Je lui laisse bien évidemment les questions du fond; je réponds donc à mon tour aux questions qui m'ont été adressées et je me permets aussi de réagir de manière sporadique à des choses qui ont retenu mon attention ici et là. J'utilise la numérotation que j'ai trouvée plus haut.

A quelques reprises il est question de liens qui ne fonctionneraient pas (par ex. 2.2.14, 2.2.22 en plus de celui de la leçon -maintenant retirée - sur Beautiful Soup). Il s'agit de liens relatifs dans le fichier markdown qui viennent de l'original, déjà publié (parce que ce sont des liens relatifs que nous utilisons sur le dépôt jekyll pour les liens internes). Je crois que c'est évoqué quelque part, les liens relatifs ne fonctionnent pas dans les prévisualisations de ce dépôt ph-submissions (alors que c'est le cas sur notre dépôt jekyll). Ici il faut des liens absolus, que nous n'avons pas changé dans le fichier, puisque par la suite, au moment du transfert vers jekyll, il faudra les transformer à nouveau en liens relatifs. Il faut se référer à l'original déjà en ligne et, pour les données, j'ai vu que le lien vers les données est fourni dans un des commentaires.
- 2.2.9. 🧐 certaines des [leçons d’introduction à la programmation en Python](https://programminghistorian.org/en/lessons/introduction-and-installation) du Programming Historian (en anglais pour le moment). 👉 Ces leçons ont été traduites depuis

=> @datalogism il nous faut remplacer le lien par celui-ci: /fr/lecons/introduction-et-installation et enlever la partie de la phrase entre parenthèses.

2.2.10 ❗🧐 [@spapastamkou ](https://github.com/spapastamkou) [“Learn Python3” de Codecademy](https://www.codecademy.com/learn/learn-python-3) Ne pourrait-on pas renvoyer vers une ressource francophone ? genre https://www.fun-mooc.fr/fr/cours/python-3-des-fondamentaux-aux-concepts-avances-du-langage/

=> Que penses-tu de celui-ci: https://zestedesavoir.com/tutoriels/2514/un-zeste-de-python/ Ce tutoriel est librement accessible et ne nécessite pas d'inscription/création de compte, il est disponible intégralement iet possible à parcourir rapidement pour se répérer facilement dans les contenus.

2. Ces fichiers ont été générés à l'aide du module Python nommé BeautifulSoup. Son utilisation est expliquée dans une autre leçon du Programming Historian, Intro to BeautifulSoup (en anglais). »

=> remplacer par: Ces fichiers ont été générés à l’aide du module Python nommé BeautifulSoup. (La leçon sur BS n'est pas nécessaire pour la compréhension de cette leçon-ci, elle est évoquée à titre d'information; du moment qu'elle a été retirée, nous pouvons modifier la phrase ici sans rien perdre du contenu).

En vrac:
- il est question de blogue/blog: nous pouvons garder blogue sans problème puisque nous sommes ouverts à la diversité de la langue française et blogue est facilement compréhensible
- il est question de "carnets Jupyter" vs "Jupyter notebooks". Il est vrai que dans la leçon dédié nous avons utilisé carnets Jupyter, on peut alors préférer le terme traduit pour des raisons de cohérence
- "le problème est que la plupart des mots" est peut-être plus pertinent que "le problème, c'est que la plupart des mots" (2.2.31)

spapastamkou commented 2 years ago

Je profite pour rappeler un peu les grandes lignes de la procédure de l'évaluation par commentaire séparé pour que nos évaluateurs sachent aussi à quoi s'attendre par la suite. A moins que @datalogism souhaite discuter de certains points par la suite avec vous, @remicardon et @amdlz, pour les clarifier davantage, votre travail est essentiellement terminé. A nouveau merci pour le temps que avez pu nous consacrer!

@datalogism Je ne sais pas si tu as terminé, mais s'il reste encore des retours à faire, je te propose, pour simplifier, de synthétiser sur les points qui ne posent pas de problème et de reprendre point par point seulement ceux pour lesquels tu souhaiterais plus de clarifications. Nous allons aussi demander à @fdlaramee s'il a la disponibilité de réagir et/ou d'apporter des modifications dans le texte suivant les relectures et en fonction de ses propres vues. @fdlaramee, il nous faudrait au moins que tu nous fasses part de tes objections, si tu en as; si tu ne te manifestes pas, nous prendrons cela pour un tacite accord:-)

Enfin, si François Dominic n'a pas la disponibilité d'intervenir dans le fichier pour modifier le texte selons les relectures, ce sera Célian de le faire (nous avons pratiquement tous eu droit à cela par le passé: moi, Gwenaëlle, et François Dominic aussi!). Je reste bien évidemment à disposition si besoin.

fdlaramee commented 2 years ago

Bonjour Sofia,

Allez-y selon votre bon jugement, toi et l’équipe, je préfère me retirer complètement du dossier.

Merci!

remicardon commented 2 years ago

Hello @datalogism , voici mes réponses à la deuxième vague.

2.3.3 Ok avec la proposition
2.3.10 Remarque normalement pour @amdlz, mais ok avec la proposition
2.3.14 et 2.3.15 D'accord avec les deux propositions
2.3.28 Objection retenue :)
2.3.28 bis Ma proposition était plus mécaniquement une correction du "return" anglais qui ne peut pas se traduire à l'aide du calque "retourner" dans ce contexte, mais effectivement "je calcule et j'affiche" rend le tout plus explicite dans ce contexte
2.3.29 D'accord avec la proposition, sauf avec "méthode" pour parler de "with". "Instruction" me paraît plus adapté.
2.3.30 Le paragraphe en question présente également token comme une alternative viable. Je ne pense pas déjà avoir rencontré "unité lexicale" pour "token" dans des articles. Peut-être qu'en TAL on utilise token pour éviter d'utiliser "unité lexicale" dans son sens informatique afin d'éviter la confusion avec le sens linguistique ? Je n'ai pas assez été exposé à la littérature francophone en informatique hors TAL pour m'en rendre compte.
2.3.31 Ok avec la proposition
2.3.32 Cette proposition me semble être un contresens : le texte dit qu'avec un langage de programmation on peut procéder de plusieurs manières différentes pour réaliser une même action, et que c'est le cas avec tous les langages de programmation. Cela signale que l'approche présentée dans le tutoriel n'est pas la seule façon de faire, et que même en utilisant Python on pourrait faire autrement, et non pas qu'on doit procéder ainsi car on utilise tel ou tel langage.
2.3.33 Je n'ai pas vraiment d'avis. Il est peut-être utile de signaler au lecteur que tout ce qui a été fait jusque là était de la "logistique" et que la suite entre dans le vif du sujet ?
2.3.34 Je ne sais pas à quelle remarque cela répond, mais il me semble utile de laisser la notion de conversion des chaînes de caractères en valeurs tf-idf. C'est exactement ce que fait le TfidfVectorizer. Peut-être que "pour représenter nos documents avec les scores tf-idf de leurs mots / leur contenu" serait plus fluide ?
2.3.43 ok avec la proposition
2.3.45 attention : "how you can treat a named entity or a phrase as a single token" signifie "comment traiter une entité nommée ou un syntagme comme des tokens uniques" (par exemple on souhaite pouvoir considérer que "Programming Historian" est un seul token, et non pas deux tokens distincts), cela ne parle pas de phrases ne comportant qu'un seul token.

spapastamkou commented 2 years ago

Merci @fdlaramee. Je laisse @datalogism tranquille pour finir son travail et serai en support si besoin à la fin. Je profite pour te poser la question: je tiens que nous aurons la même liberté pour ton autre traduction? Si tu nous confirmes, cela nous aidera à nous organiser à l'avance. Merci!

fdlaramee commented 2 years ago

Oui, même chose pour l’autre.

-- François Dominic Laramée, PhD Journaliste et chroniqueur indépendant Chargé de cours en sciences humaines numériques www.francoisdominiclaramee.com

Le 19 avr. 2022 à 06:59, Sofia Papastamkou @.***> a écrit :

Merci @fdlaramee. Je laisse @datalogism tranquille pour finir son travail et serai en support si besoin à la fin. Je profite pour te poser la question: je tiens que nous aurons la même liberté pour ton autre traduction? Si tu nous confirmes, cela nous aidera à nous organiser à l'avance. Merci!

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.

datalogism commented 2 years ago

@remicardon, j'adhère avec la totalité de tes remarques @fdlaramee ça marche, je prends le relai quand aux corrections, si tu n'es pas d'accord avec certaines d'entre elles et bien tu sais où nous trouver ! @spapastamkou, 100% ok avec ton proposition de ressource ! Je rajoutes les points que tu soulignes à la to do list finale.

Merci à vous trois !

amdlz commented 2 years ago

Hello, Je réponds rapidement à la 2ème vague : Je suis d'accord avec toi @datalogism pour toutes tes propositions (2.3.11., 2.3.13. et 2.3.17) et pour le point 2.3.10., je te laisse choisir le lien le plus approprié :)

datalogism commented 2 years ago

Hello @amdlz, @remicardon, Je ne vais pas vous refaire le listing de vos remarques cette fois-ci, j'ai seulement une proposition à vous faire à chacun :

@amdlz : Ligne 340 : « Les paragraphes ci-dessus ont effleuré » à remplacer par « ont évoqué » :point_right: Je te propose "Le paragraphes ci-dessus ont permis d'introduire les raisons" cela me parait peut être plus clair non ?
@remicardon : la normalisation l1 et l2 > les normalisations l1 et l2 (il s'agit de deux normalisations différentes, le pluriel aurait aussi dû être utilisé en anglais) :point_right: pas d'accord comme l'on peux appliquer soit l'un soit l'autre Cependant je partirais plutôt sur la notion de "pénalisation" qui est très souvent utilisé dans la littérature pour qualifier cela / ce qui permettrait de ne pas créer d'ambiguité avec la remarque que tu as faites concernant "weighting term frequencies against norms"

Une fois que j'aurai eu vos retours concernant ces deux points, votre travail sera terminé ! Je tiens à vous remercier sincèrement d'avoir participé à cette relecture à nos côtés, vos revues ont été vraiment enrichissantes, vous avez vraiment passé du temps sur la question et cela s'est fait sentir ! Ta leçon @fdlaramee va donc pouvoir enfin pouvoir être publiée :) merci à vous trois pour votre travail, la traduction de cet article est grace à vous réellement qualitative !

Je m'occupe dans le courant de la semaine prochaine d'apppliquer tout vos retours. La leçon devrait si tout va bien pouvoir être publiée début de moi prochain ! Bon weekend à tous

amdlz commented 2 years ago

Hello, Parfait pour ce dernier point, je suis d'accord avec ta proposition @datalogism ! C'était un plaisir de vous aider un petit peu. Bonne continuation à tous et à toutes !

remicardon commented 2 years ago

Hello,

"Pénalisation" convient aussi effectivement, il y a aussi le terme de "régularisation" qui me semble plus fréquent. Concernant la formulation, "la normalisation l1 et l2" me semble justement suggérer qu'il s'agit d'une seule normalisation qui s'appelle "l1 et l2", alors qu'utiliser le pluriel les différencie.

Merci encore pour la solicitation, c'était un travail intéressant ! Je suis ravi d'avoir pu aider.

Bonne continuation !

datalogism commented 2 years ago

Tu m'as convaincu : ok pour régularisation et le pluriel. Merci à toi @remicardon ! Ce fut un reel plaisir de travailler à vos cotés avec @amdlz ! Bonne continuation à vous.

spapastamkou commented 2 years ago

@datalogism a fait savoir par email que toutes les modifications ont été intégrées. Merci beaucoup pour cet énorme travail qui n'était pas facile! (Je crois qu'il y a un petit oubli au niveau du titre dans les métadonnées yaml, qu'il faudra mettre en français, mais on peut se rattraper avant la publication si besoin).
@anisa-hawes: normally this translated lesson is now ready for you to review the typesetting and markdown. Please note there is no urgency here, do according to your availabilities and we will be able to publish after. Thanks!

datalogism commented 2 years ago

Merci @spapastamkou, je viens de corriger cela !

spapastamkou commented 2 years ago

merci beaucoup, @datalogism !

spapastamkou commented 2 years ago

@anisa-hawes I am done with the final checks before publishing (as per ME's tasks) but did not touch either the footnotes or the markdown. Let me know if you want me to do anything there! Thanks!

anisa-hawes commented 2 years ago

Bonjour François Dominic @fdlaramee, Célian @datalogism et Sofia @spapastamkou,

Veuillez m'excuser pour le retard. Je partage ici mes commentaires.

Dans le YAML, j'ai ajouté " " autour du titre de la leçon
J'ai remplacé gras (formaté avec un double soulignement) par gras (formaté avec un double astérisque) par souci d'uniformité. (Je réalise que la leçon originale utilise le gras mais les les instructions des auteur(e)s conseillent le gras).
J'ai ajouté éléments de liste en majuscules, l.61-2 et l.76-79
J'ai remplacé "tf_idf" par "tf-idf" dans l'en-tête l.210
J'ai ajouté NumPy en majuscules, l.259 et §267
Dans plusieurs paragraphes §360, §376, §407, je pense que <div class="alert-info"> est préférable à NOTE DU TRADUCTEUR. J'ai enlevé les italiques et j'ai mis les mots Note du traducteur en minuscules
J'ai remplacé "" par « » au §374
J'ai reformaté les citations l.423-508
J'ai intégré les liens perma.cc (sauf en cas d'action directe, par exemple, installer, télécharger)

Merci à vous, Anisa

spapastamkou commented 2 years ago

@datalogism J'ai fini par intégrer une référence supplémentaire dans les lecturers recommandées pour Python, le livre d'Emilien Schultz et de Matthias Bussonnier, qu'en penses-tu? Cela fait un moment que je cherchais l'occasion de le faire au PH FR et celle-ci me semble être la bonne:-) Pour ne pas compliquer la vie de @anisa-hawes, qui avait intégré des liens perma.cc, j'ai utilisé le permalien (permalink) de Worldcat, qui est pérenne. Je vous donne rdv au PR au cas où vous souhaitez discuter ces modifications.

datalogism commented 2 years ago

Ok parfait ! Tu as raison la lesson s'y prete bien.

spapastamkou commented 2 years ago

Cette leçon a bel et bien été publiée et est disponible ici: https://programminghistorian.org/fr/lecons/analyse-de-documents-avec-tfidf Merci à toutes et à tous pour vos contributions, en particulier à @remicardon et @amdlz pour vos évaluations!