AI for automated transcription of Historical Documents (PH/TNA/JISC)

tiagosousagarcia commented 3 years ago

The Programming Historian has received the following proposal for a lesson on 'AI for automated transcription of Historical Documents' by @CVidalG. The proposed learning outcomes of the lesson are:

Issues and Challenges of Handwritten Text Recognition
Building efficient models in case of small training dataset (good practices and fine-tuning)

In order to promote speedy publication of this important topic, we have agreed to a submission date of no later than January 2022. The author(s) agree to contact the editor in advance if they need to revise the deadline.

If the lesson is not submitted by January 2022, the editor will attempt to contact the author(s). If they do not receive an update, this ticket will be closed. The ticket can be reopened at a future date at the request of the author(s).

The main editorial contact for this lesson is @tiagosousagarcia.

Our dedicated Ombudsperson is (Ian Milligan - http://programminghistorian.org/en/project-team). Please feel free to contact him at any time if you have concerns that you would like addressed by an impartial observer. Contacting the ombudsperson will have no impact on the outcome of any peer review.

tiagosousagarcia commented 2 years ago

We've agreed with the author to extend the deadline to 15/02/2022

spapastamkou commented 2 years ago

@tiagosousagarcia For whatever you need from the FR team, @matgille will be your main editorial contact - if need for further support, just ping me. Very happy for this new lesson!

drjwbaker commented 2 years ago

@spapastamkou: I see you've tagged Matthias already. Thanks!

@matgille: @tiagosousagarcia has been working on potential peer reviewers as part of project support for the editorial teams. I'll write to you via email with the latest.

drjwbaker commented 2 years ago

@CVidalG could you provide an update please, as this article is now overdue. If you need a further extension, please get in touch (via email if you'd prefer)

spapastamkou commented 2 years ago

I bumped into the figs you added @tiagosousagarcia, some of them are Greek to me 😂

tiagosousagarcia commented 2 years ago

This lesson is currently under closed peer review, at the author's request. More updates will be posted here after the peer-review process.

matgille commented 2 years ago

Some information about the reviewers: they are Ariane Pinche / @ArianePinche (Postdoctoral fellow, École Nationale des Chartes) and Julien Philip (Reseacher, Adobe).

anisa-hawes commented 2 years ago

Hello all,

Please note that this lesson's .md file has been moved to a new location within our Submissions Repository. It is now found here: https://github.com/programminghistorian/ph-submissions/blob/gh-pages/fr/en-cours/originales/

A consequence is that this lesson's preview link has changed. It is now: http://programminghistorian.github.io/ph-submissions/fr/en-cours/originales/transcription-automatisee-graphies-non-latines

Please let me know if you encounter any difficulties or have any questions.

Very best, Anisa

matgille commented 2 years ago

A quick update.

The reviewers have sent their review to the author. To sum up briefly, the author was asked to make sure any concept relative to supervised learning would be translated and precisely defined. Besides, the reviewers pointed out the need of describing the full pipeline Calfa offers, from the import of the images to the export of the transcriptions and datasets.

The author will send an updated version of the lesson soon.

Best,

Matthias

tiagosousagarcia commented 2 years ago

Hello all -- just a quick note to say that this is my last week working for PH. It's been an absolute pleasure working on this, and I'm only sorry I'm not going to be around for its publication (from this side -- I'll definitely be reading and using it as a regular joe). Big thanks to @CVidalG for writing it, and @matgille for taking it forward. Well done everyone!

spapastamkou commented 2 years ago

Bonjour, je suis au courant, grâce à @matgille, que la révision de la leçon avance bien. A-t-on peut-être une date estimée de la livraison de la version finale pour être en mesure d'envisager une publication cet automne? Merci beaucoup

matgille commented 2 years ago

Bonjour @spapastamkou, la leçon avance, je viens d'avoir un retour d'évaluateur sur la leçon actualisée, nous faisons tout pour rendre la leçon au plus vite ! J'espère pouvoir la proposer d'ici à 3 semaines environ.

Matthias

spapastamkou commented 2 years ago

Merci beaucoup pour ces informations @matgille. Ce n'est pas pour mettre la pression, mais surtout pour savoir si tout avance bien avec la leçon et pouvoir organiser si possible sa correction éditoriale et publication avant décembre (càd avant la fin de mon service).

matgille commented 2 years ago

Nous allons finir de travailler sur la leçon la semaine prochaine avec son auteur, j'espère pouvoir donc proposer une leçon propre d'ici à deux semaines grand maximum pour correction !

Bonne fin de semaine,

Matthias

matgille commented 2 years ago

Bonjour Sofia, nous sommes en bonne voie pour la pré-publication de la leçon. Je devrais pouvoir l'intégrer sur le dépôt git d'ici à la fin de la semaine, et une version validée par l'auteur devrait être disponible pour correction d'ici à la semaine prochaine.

Bonne semaine,

Matthias

spapastamkou commented 2 years ago

Merci pour la mise à jour, @matgille. Je vais commencer à organiser doucement les contacts pour ces opérations, et je commence par tenir informée @anisa-hawes:-) Anisa, we are not there yet, but the review process of this lesson is about to finish in the next couple of weeks. This means that for November you may have to plan the typesetting controls in your time schedule after the copyediting takes place. I'll cc you in the contacts for the copyediting.

spapastamkou commented 2 years ago

@matgille A la fin du processus, petit rappel qu'il y aura deux choses à solliciter à l'auteur:

une courte bio en deux lignes qu'il pourra poster en commentaire ici
lui demander de remplir cette déclaration de cession de droits - @anisa-hawes What is the workflow for the new type of the author's permission to publish? Does the editor send it to you to upload it? Does it integrate the ME's tasks? Sorry to ask all these questions but it is the first time we use it. Thanks a lot!

anisa-hawes commented 2 years ago

Dear @spapastamkou and @matgille,

Apologies for the delay in reaching this comment. Yes: when Hélène has completed the copyedit and I have completed the typesetting + applied the perma.cc links, I will reach out to the author with the declaration form to sign. When received, I'll upload it to our secure project and business repository and write a note to confirm that here in the Issue.

Very best wishes, Anisa

spapastamkou commented 2 years ago

Thanks a lot for the precisions, @anisa-hawes

matgille commented 2 years ago

Hi @anisa-hawes, hi @spapastamkou

The lesson has been updated and I'm waiting for the author's approval before performing the merge. See pull request #519.

I would like to thank here Ariane @ArianePinche and Julien Philip for their work (and Chahan @CVidalG too of course) !

Best,

Matthias

matgille commented 2 years ago

The lesson draft can be viewed here.

As of now, I can see some problems @CVidalG:

the first two images are poorly defined: can you send me another two ?
the tables mixing text and graphic contents are not displayed properly (seems fixed with https://github.com/programminghistorian/ph-submissions/commit/12f736a75db0b65d1cd6fbb4bdddde40c940f186)
some minor modifications are to be done (some typos, italics to be added, etc)

You have the rights on the repo if you need to change something. Working on PR #525.

@spapastamkou en fait j'essaie de grouper tous les commits et la discussion qu'on va avoir dans un seul endroit et de fusionner peu à peu avec la branche principale (qui est celle à partir de laquelle on a la visualisation), pour pouvoir avoir la visualisation à jour, mais je ne sais pas exactement comment faire: as-tu une suggestion ? J'ai fait un test et je ne peux pas rouvrir un PR après la fusion...

spapastamkou commented 2 years ago

@matgille si tu souhaites que des commits directs ou des PR soient recensés automatiquement sur le ticket, tu peux mentionner le numéro de ce ticket précédé par # dans le titre du commit (pour le commit à ce dépôt) ou en commentaire dans le PR (pour le PR). Tu peux l'appliquer pour ton travail à venir, autrement, pour tout ce qui n'est pas déjà recensé, tu peux peut-être les signaler via URL dans un commentaire séparé ici? Dis-moi si cela répond à la question:)
PS: je vois que tu as déjà recensé des commits via url dans de précédents commentaires

matgille commented 2 years ago

@CVidalG: je suis en train de reprendre la correction après une semaine chargée. Je finis cela au plus vite et vous soumets les quelques modifications: #527, je vais me centrer sur de la typo. Ensuite, on envoie à correction professionnelle.

Pouvez-vous me renvoyer les deux première images ? Elles sont trop peu définies (les deux figure0), il se peut que j'aie perdu les originaux, désolé.

Par ailleurs, il faut réfléchir à une difficulté pour la leçon: entre moyen et difficile. Il n'y a pas de difficulté technique particulière dans la leçon, mais pas mal de concepts précis à aborder: je vous proposer une difficulté 3 (difficile) ?

Capture d’écran du 2022-10-26 12-24-00

Qu'entendez-vous par gain de 90% ici ? Par rapport à quel modèle ?

Capture d’écran du 2022-10-26 12-31-23

Ici, je vous propose d'arrêter la phrase après l'augmentation des données. Kraken, par exemple, propose une augmentation des données pour la reconnaissance des zones et pour la transcription; en fait, tout est question de savoir ce qu'on entend par grand public. On garde comme tel si vous le souhaitez.

Pour les thèmes (topics) de la leçon (qui aident à la classification pour le/a lectrice), je propose: data-manipulation et machine-learning; mais si vous en avez d'autres en tête, n'hésitez pas à me le suggérer; pour les activités, acquiring, transforming, analyzing.

N'oubliez pas le lien vers le dépôt zenodo !

J'aurais aussi besoin d'une courte biographie en une ou deux phrases (avec éventuellement un identifiant ORCID).

Merci,

Matthias

matgille commented 2 years ago

This bio will be added to ph_author when the lesson is ready:

- name: Chahan Vidal-Gorène
  team: false
  orcid: 0000-0003-1567-6508
  bio:
      en: |
Chahan Vidal-Gorène is a specialist in digital palaeography (PhD in progress). He teaches in the Digital Humanities master's programme at the École nationale des Chartes-PSL, and is the founder and president of Calfa, a company specialising in the processing of oriental manuscripts.
      es: |
Chahan Vidal-Gorène es especialista en paleografía digital (doctorado en curso). Imparte clases en el máster de Humanidades Digitales de la École nationale des Chartes-PSL, y es fundador y presidente de Calfa, una empresa especializada en el tratamiento de manuscritos orientales.
      fr: |
Chahan Vidal-Gorène est spécialisé en paléographie numérique (doctorat en cours). Il enseigne au sein du master Humanités Numériques de l’École nationale des Chartes-PSL, et est le président-fondateur de Calfa, entreprise spécialisée dans le traitement de documents manuscrits orientaux.

matgille commented 2 years ago

Hi @anisa-hawes @spapastamkou,

I've changed the endnotes numbering (fa51205), but jekyll seems to struggle with mixed notes:

Capture d’écran du 2022-11-07 12-14-32

Capture d’écran du 2022-11-07 12-14-00

Have you been confronted to a similar issue ?

matgille commented 2 years ago

The lesson can be sent to proofreading.

spapastamkou commented 2 years ago

Email envoyé à @lnbeauchef pour les corrections orthotypographiques. @marie-flesch Tu pourras suivre ici la suite du processus et on en rediscutera.

lnbeauchef commented 2 years ago

Bonjour à toutes et tous, Je me mets sur la correction orthotypo !

matgille commented 2 years ago

@lnbeauchef Super, merci beaucoup !

Matthias

lnbeauchef commented 1 year ago

Bonjour @matgille @spapastamkou ,

J'ai terminé la correction orthotypo de la leçon mais je ne parviens pas à pusher le fichier, la permission m'est refusée.

ERROR: Permission to programminghistorian/ph-submissions.git denied to lnbeauchef.

Ai-je loupé quelque chose ? Savez-vous ce que je peux faire pour y remédier ?

Merci beaucoup ! Hélène

spapastamkou commented 1 year ago

Bonjour @lnbeauchef, cela devrait être bon maintenant - le ménage a été fait récemment parmi les comptes des collaborateurs du repo et je pense qu'il y a eu quelques vivtimes collatérales:-)

lnbeauchef commented 1 year ago

Merci beaucoup @spapastamkou , c'est bon !

lnbeauchef commented 1 year ago

Bonjour @CVidalG, Bonjour à toutes et tous,

Je viens de terminer la relecture de la leçon La reconnaissance automatique d'écriture à l'épreuve des langues peu dotées. J'ai effectué les corrections sur le markdown que je viens de pusher (cf. 1abc54d).

Je partage ici mes commentaires et/ou questions en indiquant à chaque fois la ligne concernée.

Lorsque la case est cochée, la correction est faite mais je le mentionne pour m'assurer que c'est le bon choix.

Lorsque la case n'est pas cochée, il s'agit de suggestion ou de question.

Corrections faites mais à confirmer

[x] 19 (abstract) | Orthographe (accord) - Il m'a semblé ici que "lesquelles" référait à "des documents". Je l'ai donc accordé en fonction : lesquels. Est-ce bien correct ?

Le tutoriel a pour but de décrire les bonnes pratiques pour la création d'ensembles de données et la spécialisation des modèles en fonction d'un projet HTR ou OCR sur des documents qui n'utilisent pas l'alphabet latin et donc pour lesquels ~~lesquelles~~ il n'existe pas ou très peu de données d'entraînement déjà disponibles.

[x] 99 | Reformulation - Est-ce bien "la multiplicité d'architectures" qui "intègrent" ? (ou bien les plateformes privées qui complètent et intègrent ?)

Enfin, des plateformes privées comme Calfa Vision (Calfa) complètent ces dernières par une multiplicité d'architectures qui intègrent une approche de spécialisation itérative pour surmonter les écueils mentionnés pour le traitement d'écritures peu dotées, à partir de petits échantillons[^13].

[x] 448 - Typo - À défaut de pouvoir trouver le mot juste en français, j'ai mis scans en italique.

dont les scans sont parfois courbés sur les tranches

[x] 781 | Reformulation - Le GIS MOMM est cité au complet avant mais puisque c'est dans une note (10), j'ai jugé bon de le remettre ici. Idem pour les liens sur GIS MOMM et BULAC.

sous la supervision du Groupement d'Intérêt Scientifique Moyen-Orient et mondes musulmans (GIS MOMM), de la BULAC et Calfa.

[x] 786 | Orthographe (accord) - Ici, ce sont bien les systèmes graphiques + les langues qui sont peu dotés ?

nous avons décrit les bonnes pratiques pour la transcription rapide de documents en systèmes graphiques ou en langues peu dotés via la plateforme Calfa Vision...

Corrections suggérées

[ ] 48 | Lien externe - Le lien vers la plateforme Calfa Vision est présent plus loin (ligne 654) mais ne pourrait-on pas l'ajouter ici où elle est citée pour la première fois dans la leçon ?

La leçon initie également au fonctionnement d'une plateforme d'annotation de documents, Calfa Vision, sans toutefois exclure les autres plateformes.

[ ] 140 | Illustration - Le fichier appelé en figure 4 est la figure 1 (filename="figure1_pipeline_training_1.jpg") - déjà présent plus haut dans le texte (ligne 68). Y a-t-il une erreur ? Dans le dossier images, il y a deux figures 4 (figure4_PG_123_359-360.jpg et figure4_PG_125_625-626.jpg).

{% include figure.html filename="figure1_pipeline_training_1.jpg" caption="Figure 4 : Entraînement d'un modèle OCR/HTR de zéro" %}

[ ] 183 | Illustration - il y a deux "Figure 8" ce qui peut prêter à confusion lorsque celle-ci est appelée (toujours au singulier) à plusieurs endroits dans le texte (lignes 180, 453, 623). L'appeler au pluriel : "(en bleu sur les figures 8)" ? Ou faire des deux figures une seule ?

[ ] 434 | Reformulation - Je suggère ici de supprimer un des "modèle" pour éviter la répétition. À voir si le sens est respecté.

modèle sur lequel se basera le fine-tuning pour la PG

[ ] 453 | Illustration - La figure 10 appelée juste avant "figure10_PG_123_202.jpg" ne comprend pas de rouge. Par contre il y a du rouge sur le fichier "figure10_text.jpg", présent dans le dossier images mais non appelé dans la leçon. Est-ce la bonne illustration ?

(en rouge sur la figure 10, il s'agit de la ligne de base de l'écriture)

[ ] 541 | Compréhension - Je ne comprends pas ici le sens de la fin de la phrase, après les ":". Est-ce que les erreurs de détection et lignes omises sont les raisons pour lesquelles les lignes ont été incorrectement détectées (donc en vert) ?

(figure 12 ; en rouge, les lignes correctement détectées ; en vert, les lignes incorrectement détectées : erreurs de détection et lignes omises)

[ ] 588 | Reformulation - Je ne suis pas sure de comprendre. Je reformulerai, par exemple comme suit : "sans pour autant exclure toute autre langue".

La langue associée à chaque nom correspond à la langue dominante et au cas classique d'utilisation, sans pour autant ~~être exclusif de~~ exclure toute autre langue.

[ ] 664 | Lien externe - Un tutoriel complet Le lien renvoie vers la page de login de la plateforme. Peut-être le préciser ? Ou le modifier (je n'ai pas trouvé le tutoriel sur leur site) ?

[ ] 746 | Reformulation - Je ne suis pas sure de comprendre cette phrase. Il me semble y avoir confusion entre la détection des lignes et la détection des colonnes.

Concernant la détection des lignes, dix images suffisent à largement contenir le problème de la détection des colonnes observé en figure 18

[ ] 875 | Reformulation - Ibid. Citer la référence au complet ?

Remarques générales

Titres qui s'enchaînent : Plusieurs titres s'enchaînent au cours de la leçon. Il serait préférable de les séparer par du texte. Je cite les cas ci-dessous. [ ] 51-53 | Introduction / La reconnaissance de caractères [ ] 119-121 | Pipeline classique d'un OCR/HTR / Étapes de reconnaissance [ ] 584-586 | Chaîne de traitement : production du jeu de données et traitement des documents / Méthodologie technique
Niveaux de titre J'ai passé les titres suivants (initialement en gras ou en italique) en titre de niveau 4 : [x] 621 | Quelles annotations de mise en page réaliser ? [x] 682 | Gestion du projet d'annotation [x] 693 | Annotation de la mise en page [x] 748 | Annotation du texte

J'avais initialement mis les trois titres suivants en niveau 5 mais j'ai vu dans l'historique qu'ils venaient d'être modifiés dans l'autre sens (cf. 77cb4e6). Je les ai donc remis en italique. [x] 512 | CER [x] 534 | Précision et rappel [x] 572 | Intersection sur l'Union (Intersection over Union ou IoU)

Ancre : insérer des ancres là où il est fait référence à d'autre parties de la leçon (voir infra, voir supra, voir plus loin) ? (cf. lignes 76, 84, 105, 128, 150, 158, 380, 753 et 839)
Tableau : les tableaux 2 et 3 (lignes 313 et 384) ont la légende intégrée dans la div - elle apparaît avant le tableau. Contrairement aux autres (1, 4, 5 et 6) qui ont la légende après. Harmoniser ?

Mise en forme / Markdown

Les remarques ci-dessous concernent je pense davantage les éditeurs qui vont prendre la suite :

[ ] 641 | Vérifier que l'appel de note inclus dans la div fonctionne.

[ ] 697/703 | Possible de traiter l'italique dans un bloc de code (baseline et bounding box) ?

[x] Espaces insécables | J'ai conservé les espaces insécables déjà présents dans la citation des figures en légende et dans le corps du texte. Par exemple : Figure 0. Je l'ai systématisé pour les tableaux (en légende et en corps de texte). Je ne l'ai pas ajouté sur les cas similaires. Par exemple : ligne 1, cas 2...

[ ] Style de citation | Je n'ai pas retouché le style des références bibliographiques situées en note car il me semble que c'est à l'étape suivante. Si besoin, dites-moi et je le ferais.

L'ensemble des modifications est visible dans les détails du commit.

Je me tiens à votre disposition pour toute question, précision...

Bonne journée !

spapastamkou commented 1 year ago

Bonjour @CVidalG et @matgille. J'espère que vous avez pu prendre connaissance des corrections proposées par @lnbeauchef. Afin d'avancer, il est nécessaire d'avoir l'accord explicite de l'auteur sur les corrections proposées, ainsi que son sentiment quant aux suggestions. Vous pouvez échanger à ce sujet dans le cadre de ce ticket. Merci beaucoup!

matgille commented 1 year ago

Bonjour @spapastamkou @lnbeauchef,

Désolé pour le délai de ma réponse. Je regarde tout cela demain !

Matthias

spapastamkou commented 1 year ago

(@matgille J'ai juste changé un peu le titre du ticket puisque ce dernier a accueilli à la fois les étapes de soumission et d'évaluation)

spapastamkou commented 1 year ago

Bonjour à tous. Je me permets de revenir sur ce ticket étant donné qu'il semble immobile, alors que nous sommes dans la dernière ligne droite pour que la leçon soit publiée. Je comprends bien que les agendas des uns et des autres sont chargés, mais c'est aussi pourquoi je pense que nous devrions faire de notre mieux pour en finir, surtout que le début de l'année s'annonce bien chargé pour l'équipe francophone! Je résume donc ce qu'il reste à faire et à qui ci-dessous.

@CVidalG Avant toute chose, nous avons vraiment besoin que vous fournissiez explicitement votre aval, dès que vous le pourrez, sur les corrections intégrées via ce commit. Vous pouvez vous exprimer soit par commentaire ici, soit par email, si vous le préférez, au rédacteur assigné de la leçon (Matthias). Par ailleurs, vous recevrez aussi un email de la part de @anisa-hawes pour remplir et renvoyer une déclaration concernant les droits d'auteur,mais Anisa saura vous expliquer mieux ce que vous aurez à faire.

@matgille Je sais que tu es bien chargé en ce moment, mais comme nous sommes plusieurs à devoir être coordonnés pour la phase finale, est-il possible que tu définisses une sorte d'échéance, réaliste suivant tes disponibilités, pour que nous sachions à peu près quand sera achevé le travail éditorial autour de cette leçon? Pour rappel, sur la base du commentaire d'Hélène à la suite des corrections qu'elle a intégrées, il te reste plus particulièrement à:

Inspecter les parties suivantes décrites dans son commentaire plus haut:
- Corrections faites à confirmer
- Corrections suggérées
- Remarques générales (sauf niveaux de titres qui peuvent être examinés par Anisa).
Renseigner les métadonnées yaml (sachant que cela je peux aussi le faire, si besoin et sans problème, lors du contrôle que je ferai avant publication). La partie Mise en forme/Markdown sera prise en charge par Anisa. @anisa-hawes I have a question about the final controls on Markdown: is it necessary for you that the editorial controls of Matthias are finished before or you think it is possible to integrate them before your Xmas vacation, if ever by miracle you have capacity for this (and independently from Matthias's controls if he can not intervene by then). I am only asking to know what is possible in the short term and according to the rest of your schedule, which I know is charged.

@spapastamkou et @marie-flesch Nous allons remplir ensemble les tâches de la rédactrice en chef

Merci beaucoup à toutes et à tous pour votre aide!

anisa-hawes commented 1 year ago

Dear @matgille,

I'm very happy to help you with any final adjustments to the Markdown, or through any problems that you may encounter when you generate a Pull Request (it isn't always straight-forward!). I am working:

Wednesday 21st 14:00-18:00 Thursday 22nd 11:00-19:00 Friday 23rd 11:00-19:00

Send me an email if you'd like to schedule a time to connect and work together 🙂

matgille commented 1 year ago

Bonjour,

Merci pour tout et désolé pour le délai. Je réponds dans le corpus du message, en gras.

Bonjour @CVidalG, Bonjour à toutes et tous,

Je viens de terminer la relecture de la leçon La reconnaissance automatique d'écriture à l'épreuve des langues peu dotées. J'ai effectué les corrections sur le markdown que je viens de pusher (cf. 1abc54d).

Je partage ici mes commentaires et/ou questions en indiquant à chaque fois la ligne concernée.

Lorsque la case est cochée, la correction est faite mais je le mentionne pour m'assurer que c'est le bon choix.

Lorsque la case n'est pas cochée, il s'agit de suggestion ou de question.

Corrections faites mais à confirmer

[x] 19 (abstract) | Orthographe (accord) - Il m'a semblé ici que "lesquelles" référait à "des documents". Je l'ai donc accordé en fonction : lesquels. Est-ce bien correct ?

Le tutoriel a pour but de décrire les bonnes pratiques pour la création d'ensembles de données et la spécialisation des modèles en fonction d'un projet HTR ou OCR sur des documents qui n'utilisent pas l'alphabet latin et donc pour lesquels ~lesquelles~ il n'existe pas ou très peu de données d'entraînement déjà disponibles.

Oui !

[x] 99 | Reformulation - Est-ce bien "la multiplicité d'architectures" qui "intègrent" ? (ou bien les plateformes privées qui complètent et intègrent ?)

Enfin, des plateformes privées comme Calfa Vision (Calfa) complètent ces dernières par une multiplicité d'architectures qui intègrent une approche de spécialisation itérative pour surmonter les écueils mentionnés pour le traitement d'écritures peu dotées, à partir de petits échantillons[^13].

Je dirais plutôt "et intègrent" sans le pronom "qui".

[x] 448 - Typo - À défaut de pouvoir trouver le mot juste en français, j'ai mis scans en italique.

dont les scans sont parfois courbés sur les tranches

OK

[x] 781 | Reformulation - Le GIS MOMM est cité au complet avant mais puisque c'est dans une note (10), j'ai jugé bon de le remettre ici. Idem pour les liens sur GIS MOMM et BULAC.

sous la supervision du Groupement d'Intérêt Scientifique Moyen-Orient et mondes musulmans (GIS MOMM), de la BULAC et Calfa.

OK

[x] 786 | Orthographe (accord) - Ici, ce sont bien les systèmes graphiques + les langues qui sont peu dotés ?

nous avons décrit les bonnes pratiques pour la transcription rapide de documents en systèmes graphiques ou en langues peu dotés via la plateforme Calfa Vision...

Là, je sèche: @CVidalG ?

Corrections suggérées

[ ] 48 | Lien externe - Le lien vers la plateforme Calfa Vision est présent plus loin (ligne 654) mais ne pourrait-on pas l'ajouter ici où elle est citée pour la première fois dans la leçon ?

La leçon initie également au fonctionnement d'une plateforme d'annotation de documents, Calfa Vision, sans toutefois exclure les autres plateformes.

Je pense que dans le résumé, ce n'est pas la peine d'ajouter de lien, cela force les gens à lire la leçon = )

[ ] 140 | Illustration - Le fichier appelé en figure 4 est la figure 1 (filename="figure1_pipeline_training_1.jpg") - déjà présent plus haut dans le texte (ligne 68). Y a-t-il une erreur ? Dans le dossier images, il y a deux figures 4 (figure4_PG_123_359-360.jpg et figure4_PG_125_625-626.jpg).

{% include figure.html filename="figure1_pipeline_training_1.jpg" caption="Figure 4 : Entraînement d'un modèle OCR/HTR de zéro" %}

À vérifier avec @CVidalG, mais cela ne me choque pas. Il s'agit d'abord de présenter la méthode globale de l'apprentissage supervisé, puis l'opposition entre entraînement depuis 0 et affinage d'un modèle pré-entraîné.

[ ] 183 | Illustration - il y a deux "Figure 8" ce qui peut prêter à confusion lorsque celle-ci est appelée (toujours au singulier) à plusieurs endroits dans le texte (lignes 180, 453, 623). L'appeler au pluriel : "(en bleu sur les figures 8)" ? Ou faire des deux figures une seule ?

Je propose d'ajouter 8a et 8b.

[ ] 434 | Reformulation - Je suggère ici de supprimer un des "modèle" pour éviter la répétition. À voir si le sens est respecté.

modèle sur lequel se basera le fine-tuning pour la PG

On risquerait de diminuer la compréhension de la méthode en supprimant le deuxième modèle, je pense qu'il faut garder comme tel.

[ ] 453 | Illustration - La figure 10 appelée juste avant "figure10_PG_123_202.jpg" ne comprend pas de rouge. Par contre il y a du rouge sur le fichier "figure10_text.jpg", présent dans le dossier images mais non appelé dans la leçon. Est-ce la bonne illustration ?

(en rouge sur la figure 10, il s'agit de la ligne de base de l'écriture)

Ici, je ne rencontre pas ce problème (voir image de la prévisualisation de la leçon)

Capture d’écran du 2022-12-16 17-56-12

[ ] 541 | Compréhension - Je ne comprends pas ici le sens de la fin de la phrase, après les ":". Est-ce que les erreurs de détection et lignes omises sont les raisons pour lesquelles les lignes ont été incorrectement détectées (donc en vert) ?

(figure 12 ; en rouge, les lignes correctement détectées ; en vert, les lignes incorrectement détectées : erreurs de détection et lignes omises)

Est-ce que figure 12 ; les lignes correctement détectées sont en rouge ; les lignes incorrectement détectées, c'est-à-dire avec des erreurs de détection et des lignes omises, sont en vert est plus clair ?

[ ] 588 | Reformulation - Je ne suis pas sure de comprendre. Je reformulerai, par exemple comme suit : "sans pour autant exclure toute autre langue".

La langue associée à chaque nom correspond à la langue dominante et au cas classique d'utilisation, sans pour autant ~être exclusif de~ exclure toute autre langue.

OK pour moi

[ ] 664 | Lien externe - Un tutoriel complet Le lien renvoie vers la page de login de la plateforme. Peut-être le préciser ? Ou le modifier (je n'ai pas trouvé le tutoriel sur leur site) ?

@CVidalG?

[ ] 746 | Reformulation - Je ne suis pas sure de comprendre cette phrase. Il me semble y avoir confusion entre la détection des lignes et la détection des colonnes.

Concernant la détection des lignes, dix images suffisent à largement contenir le problème de la détection des colonnes observé en figure 18

Effectivement... Je ne sais pas trop ici, merci d'avoir soulevé le problème. @CVidalG ?

[ ] 875 | Reformulation - Ibid. Citer la référence au complet ?

Je crois que les normes sur lesquelles d'appuie PH utilise ibid, mais c'est à vérifier

Remarques générales

* **Titres qui s'enchaînent** : Plusieurs titres s'enchaînent au cours de la leçon. Il serait préférable de les séparer par du texte. Je cite les cas ci-dessous.
  [ ] 51-53 | Introduction / La reconnaissance de caractères
  [ ] 119-121 | _Pipeline_ classique d'un OCR/HTR / Étapes de reconnaissance
  [ ] 584-586 | Chaîne de traitement : production du jeu de données et traitement des documents / Méthodologie technique

* **Niveaux de titre**
  J'ai passé les titres suivants (initialement en gras ou en italique) en titre de niveau 4  :
  [x] 621 | _Quelles annotations de mise en page réaliser ?_
  [x] 682 | _Gestion du projet d'annotation_
  [x] 693 | _Annotation de la mise en page_
  [x] 748 | _Annotation du texte_

OK !

J'avais initialement mis les trois titres suivants en niveau 5 mais j'ai vu dans l'historique qu'ils venaient d'être modifiés dans l'autre sens (cf. 77cb4e6). Je les ai donc remis en italique. [x] 512 | CER [x] 534 | Précision et rappel [x] 572 | _Intersection sur l'Union (Intersection over Union ou IoU)_

Sur ce problème, je crois que @anisa-hawes va tout vérifier mais il ne faut pas descendre dans la hiérarchie car ce n'est pas pris en compte dans le rendu final, d'où un stylage fait à la main pour rendre tout de même la sous-section.

* **Ancre** : insérer des ancres là où il est fait référence à d'autre parties de la leçon (voir _infra_, voir _supra_, voir plus loin) ? (cf. lignes 76, 84, 105, 128, 150, 158, 380, 753 et 839)

OK !

* **Tableau** : les tableaux 2 et 3 (lignes 313 et 384) ont la légende intégrée dans la div - elle apparaît avant le tableau. Contrairement aux autres (1, 4, 5 et 6) qui ont la légende après. Harmoniser ?

Dans le rendu final, cela ne change rien

Mise en forme / Markdown

Les remarques ci-dessous concernent je pense davantage les éditeurs qui vont prendre la suite :

[ ] 641 | Vérifier que l'appel de note inclus dans la div fonctionne.

[ ] 697/703 | Possible de traiter l'italique dans un bloc de code (baseline et bounding box) ?

[x] Espaces insécables | J'ai conservé les espaces insécables déjà présents dans la citation des figures en légende et dans le corps du texte. Par exemple : Figure 0. Je l'ai systématisé pour les tableaux (en légende et en corps de texte). Je ne l'ai pas ajouté sur les cas similaires. Par exemple : ligne 1, cas 2...

[ ] Style de citation | Je n'ai pas retouché le style des références bibliographiques situées en note car il me semble que c'est à l'étape suivante. Si besoin, dites-moi et je le ferais.

L'ensemble des modifications est visible dans les détails du commit.

Je me tiens à votre disposition pour toute question, précision...

Bonne journée !

matgille commented 1 year ago

@spapastamkou Bonsoir Sofia, encore désolé pour le délai. Je crois avoir répondu à toutes les suggestions, sauf quelques unes où je renvoie vers l'auteur.

Pour les métadonnées, que reste-t-il à ajouter ? En ce qui concerne la difficulté, nous en avons discuté, je pense qu'il y a débat entre 2 et 3. De ton point de vue par rapport aux leçons que tu as vues, que mettrais-tu ?

Matthias

spapastamkou commented 1 year ago

Bonjour @matgille, et merci à toi. Pour le niveau de difficulté, je tends plutôt vers niveau 3 "avancé" et tu peux consulter, si tu le souhaites, les échanges en cours à propos de ce sujet - tu peux même les enrichir, si tu le veux:-) Il existe quand même plusieurs notions dans la leçon avec lesquelles les lecteurs et lectrices doivent être ne serait-ce qu'un peu à l'aise, dont les réseaux de neurones pour lesquels le PH n'offre pas de tutoriels introductifs (mais pas que). Après, si on part sur la base que la leçon s'adresse à un public spécialisé déjà sur ces questions, peut-être dans ce cas le nivau devient 2 "intermédiaire". Mais si le lectorat doit déjà être de nivau avancé, ne tombe-t-on pas finalement dans le premier cas? @marie-flesch peut-être tu as des idées?

spapastamkou commented 1 year ago

Sinon, je dépose ici qqs remarques, pour ne pas oublier lors de la phase finale - @matgille

paragraphe 23: il est question de la plateforme privée Calfa: il faut préciser, en ajoutant une phrase soit dans le texte soit dans l'encadré, que l'accès à cette pf pour exécuter ce tutoriel est possible moyennant la création d'un compte qui est gratuit.

paragraphe 27: à propos de: Pipeline classique d’un OCR/HTR, travail d'un OCR ou d'un HTR => ce n'est pas plutôt unE OCR/HTR (car reconnaissance optique)? S'agit-il peut-être d'un usage courant de l'acronyme anglais sans distinction de genre? Ou sous-entend-on un modèle OCR/HTC?

paragraphe 109, concernant le tutoriel (fait partie des sugestions d'Hélène): il est bien disponible depus le lien (je l'avais consulté moi-même) mais il faut être préalablement connecté (et donc avoir un compte sur Calfa) pour y accéder. Cela doit être précisé dans le texte, par ex. ajouter à la fin de la phrase: (disponible après connexion).

paragraphe 45: libres à la place de libre

Aussi, à propos des données (de la patrologie grecque): la politique du PH est de rendre disponibles les données aussi via notre site web pour anticiper des problèmes d'accès dans l'avenir. Il faut donc les ajouter dans le dépôt (répertoire assets) (je peux le faire au moment du transfert des fichiers si besoin - pourvu que j'aie ton aval, je peux intégrer tout cela à la fin).

spapastamkou commented 1 year ago

@drjwbaker Dear James, you were in charge of the JISC/TNA call of which this lesson came out; you were also my mentoring editor and I need advice here. We do not seem to get feedback and approval from the author as for the copyediting corrections: should the editor and (former and current) MEs go forward with this, according to our own views, and publish? This is what we have done so far only with some translations, but we had explicit authorization on their behalf to do so. We did not have to deal with such issues for an original lesson and I need feedback here, if I may ask for this. Thank you very much.

CVidalG commented 1 year ago

Chers tous,

Je vous remercie pour votre temps et les suggestions, je n'ai reçu aucune notification raison pour laquelle ce fil m'est complètement passé sous le nez, navré !

Voici donc mes réponses à vos questions (si je ne réponds pas à un point, c'est que c'est bon pour moi) :

[x] 99 | Reformulation - Est-ce bien "la multiplicité d'architectures" qui "intègrent" ? (ou bien les plateformes privées qui complètent et intègrent ?)

C'est bien les plateformes, en particulier Calfa Vision.

[ ] 140 | Illustration - Le fichier appelé en figure 4 est la figure 1 (filename="figure1_pipeline_training_1.jpg") - déjà présent plus haut dans le texte (ligne 68). Y a-t-il une erreur ?

Pas d'erreur, on remet la même figure.

[ ] 541 | Compréhension - Je ne comprends pas ici le sens de la fin de la phrase, après les ":". Est-ce que les erreurs de détection et lignes omises sont les raisons pour lesquelles les lignes ont été incorrectement détectées (donc en vert) ?

Oui tout à fait

Le lien renvoie vers la page de login de la plateforme. Peut-être le préciser ? Ou le modifier (je n'ai pas trouvé le tutoriel sur leur site) ?

Cela affiche une page de login lorsque nous ne sommes pas connecté à la plateforme. Une fois connecté, le lien pointe bien vers le guide.

[ ] 746 | Reformulation - Je ne suis pas sure de comprendre cette phrase. Il me semble y avoir confusion entre la détection des lignes et la détection des colonnes.

Il s'agit bien de montrer que les limites observées pour la détection des colonnes avec 10 images ne sont pas présentes pour la détection des lignes.

[x] 786 | Orthographe (accord) - Ici, ce sont bien les systèmes graphiques + les langues qui sont peu dotés ? nous avons décrit les bonnes pratiques pour la transcription rapide de documents en systèmes graphiques ou en langues peu dotés via la plateforme Calfa Vision...

Tout à fait !

Je reste à votre disposition pour tout point sur lequel cela reste obscur. Existe t-il un endroit où je puisse visualiser la leçon ? Je réponds ici de façon très théorique en reprenant le fil, sans visuel, pas forcément l'idéal. Merci encore pour votre travail !

drjwbaker commented 1 year ago

@spapastamkou If my read of @CVidalG's comment is correct, it looks like this has been resolved :)

matgille commented 1 year ago

Bonjour @CVidalG,

Merci de votre retour ! Vous pouvez voir la leçon en prévisualisation ici: https://programminghistorian.github.io/ph-submissions/fr/en-cours/originales/transcription-automatisee-graphies-non-latines

Normalement, le commit de la correctrice a été intégré.

Matthias

CVidalG commented 1 year ago

Merci @matgille , je m'occupe de relire à nouveau, dès maintenant en reprenant les points mentionnés.

CVidalG commented 1 year ago

Voici donc en complément de mon précédent message : @spapastamkou @matgille @lnbeauchef

[x] 99 | Reformulation - Est-ce bien "la multiplicité d'architectures" qui "intègrent" ? (ou bien les plateformes privées qui complètent et intègrent ?)

Dans ce cas, je vous propose de remplacer par une multiplicité d’architectures qui intègrent une approche de spécialisation par par une multiplicité d’architectures. Cette dernière intègre une approche de spécialisation....

[ ] 588 | Reformulation - Je ne suis pas sure de comprendre. Je reformulerai, par exemple comme suit : "sans pour autant exclure toute autre langue".

Bon pour moi !

[ ] 746 | Reformulation - Je ne suis pas sure de comprendre cette phrase. Il me semble y avoir confusion entre la détection des lignes et la détection des colonnes. Concernant la détection des lignes, dix images suffisent à largement contenir le problème de la détection des colonnes observé en figure 18

Effectivement... Je ne sais pas trop ici, merci d'avoir soulevé le problème. @CVidalG ?

L'idée était ici de montrer que contrairement aux régions pour lesquelles 10 images entraînent une baisse de l'accuracy par défaut, pour les lignes pas de problème. Proposition de reformulation : Contrairement à ce que nous pouvions observer avec la détection des régions (figure 18), ici dix images suffisent à obtenir immédiatement un modèle très performant.

Titres qui s'enchaînent : Plusieurs titres s'enchaînent au cours de la leçon. Il serait préférable de les séparer par du texte. Je cite les cas ci-dessous.

Pensez-vous que cela soit indispensable de séparer ? Nous avions ajouté des titres uniquement pour mieux segmenter les informations afin que le lecteur puisse savoir immédiatement à quelle information il a accès en lisant un paragraphe. Mais si cela pose problème, je procèderais à l'opération inverse : supprimer les titres.

paragraphe 23: il est question de la plateforme privée Calfa: il faut préciser, en ajoutant une phrase soit dans le texte soit dans l'encadré, que l'accès à cette pf pour exécuter ce tutoriel est possible moyennant la création d'un compte qui est gratuit.

Je suis ok avec cette proposition : je précise d'ailleurs que la création d'un compte est gratuite, et que l'utilisation des modèles d'analyse de mise en page (en particulier celui construit pour la leçon) est gratuite et non limitée, immédiatement opérationnelle après la création du compte.

paragraphe 27: à propos de: Pipeline classique d’un OCR/HTR, travail d'un OCR ou d'un HTR => ce n'est pas plutôt unE OCR/HTR (car reconnaissance optique)? S'agit-il peut-être d'un usage courant de l'acronyme anglais sans distinction de genre? Ou sous-entend-on un modèle OCR/HTC?

Bonne question. Pour ma part j'ai pris l'habitude de dire un OCR et un HTR et je ne crois pas avoir entendu la version au féminin que vous relevez.

Aussi, à propos des données (de la patrologie grecque): la politique du PH est de rendre disponibles les données aussi via notre site web pour anticiper des problèmes d'accès dans l'avenir. Il faut donc les ajouter dans le dépôt (répertoire assets) (je peux le faire au moment du transfert des fichiers si besoin - pourvu que j'aie ton aval, je peux intégrer tout cela à la fin).

Nous avons créé un dépôt Zenodo, à votre disposition pour l'intégration directe sur PH bien sûr. Il n'est pas exclu que ce dépôt Zenodo soit augmenté à l'avenir.

Toujours à votre disposition, n'hésitez pas à m'envoyer un mail au pire :) En vous souhaitant une bonne journée et en vous remerciant

spapastamkou commented 1 year ago

Merci beaucoup @CVidalG

spapastamkou commented 1 year ago

Bonjour @matgille, Anisa sera en congé jusqu'au 5 janvier et elle pourra peut-être prévoir les corrections de mise en forme finales dans le mois de janvier, un moment après cette date. Tu pourras faire signe ici quand tu auras eu l'occasion d'aligner les corrections dans le fichier avec les dernières remarques de l'auteur - ou de confirmer que tout est en accord avec ses remarques ? Un grand merci d'avance et bonnes fêtes de fin d'année!

programminghistorian / ph-submissions