CNRS-LACITO / Pangloss_website

Tools for the Pangloss Collection, an online archive of under-documented languages
https://pangloss.cnrs.fr/
MIT License
6 stars 1 forks source link

Format-pivot TEI pour conversions entre format Pangloss (DTD Pangloss), formats ELAN (EAF), Transcriber, CLAN, Praat, Flex etc. #88

Open alexis-michaud opened 5 years ago

alexis-michaud commented 5 years ago

Des passerelles entre ELAN, Toolbox, FLEx et le format Pangloss ("CRDO") sont essentielles pour l'interopérabilité des données.

Un export vers ELAN qui serait particulièrement utile pour les documents de la Collection Pangloss, ce serait un export vers un format ELAN défini soigneusement et qui ait une base d'utilisateurs et de développeurs. Le format ELAN-CorpA présente des avantages de ces deux points de vue.

Il faudrait que la conversion puisse se faire en mode 100% automatique dans les deux sens, de façon à ce qu'un document de la Collection Pangloss puisse être exporté au format ELAN, modifié dans ce format, puis "rapatrié" dans le format XML de la Collection Pangloss ("DTD CRDO").

Cette exigence est simple, mais place la barre haut : pas facile à réaliser, du fait de la façon dont les documents ELAN sont structurés.

alexis-michaud commented 5 years ago

Proposition de Michel Jacobson (@michel-jacobson) : utiliser la TEI comme format-pivot.

Le consortium TEI est un lieu où la discussion est organisée et qui cumule déjà un long passé de réflexions sur le domaine. Le format TEI se veut un format pour l'échange et d'interopérabilité.

La DTD Pangloss ou le format eaf (ou encore les formats de Transcriber, CLAN, Praat, Flex , etc.) sont plutôt des formats de mise en oeuvre liés à des outils.

Ma vision pour l'avenir est plutôt de partager un modèle comme celui de la TEI et de développer ou d'utiliser des outils de conversion de ce modèle (par exemple l'outil teiCorpo de Christophe) pour faciliter les passerelles entres les formats de mise en oeuvre.

Concernant la DTD Pangloss, Michel Jacobson a déjà mis en oeuvre une conversion vers TEI accessible via Cocoon. (Il y a sans doute des choses à améliorer dans cette conversion.)

(Il est prévu d'ajouter prochainement un lien vers cet outil depuis cette page de discussion.)

alexis-michaud commented 5 years ago

Réflexions de Christophe Parisse :

D’un point de vue technique, une représentation interne n’est pas un format. Elle ne peut être partagée. Un format pivot doit être un objet partageable. Cela va donc au delà d’une représentation en mémoire, il faut en produire une sortie qui soit partagée.

Ce format, objet partageable, permettant de connecter des programmes indépendants, sera alors un pivot pour ces softwares indépendants. L’avantage est de pouvoir partager des bibliothèques créées avec des outils différents, des langages de programmation, ou même des systèmes différents.

De ce point de vue la TEI n’est pas nécessairement le meilleur support pour devenir un format pivot. Bien qu’énorme, elle est limitée dans ses usages et on est éventuellement obligé de prendre des décisions de représentation qui ne sont pas les plus «naturelles» par rapport à la conception originale des valeurs du XML.

Comme le dit Michel Jacobson, le meilleur format pivot serait une ontologie. Cela dit, même si je suis d’accord avec l’analyse de Michel, cela voudrait dire créer un outil à partir de zéro. Vu le temps nécessaire, et la taille des groupes qui ont fait cela, je n’ai pas envie de me lancer dedans.

De ce fait je milite quand même pour la TEI parce qu’elle a assez de poids aujourd’hui pour être acceptée et partagée. Produire des documents en TEI veut dire qu’ils pourront être analysés par d’autres.

L’idée qui paraît la bonne (...) est : partir des besoins des linguistes pour définir un vocabulaire qui soit normalisé et partagé. Dans ce cadre la TEI devient encore plus un format pivot. On fait alors le travail de l’ontologie. C’est possible dans la TEI, qui présente une structure et que l’on peut nommer à souhait. Ces structures se placent dans un champ annotationBlock qui correspond assez bien à des données ayant des champs multiples. Le reste alors uniquement la ligne «originale» du texte ou de la transcription, celle du champ qu’on veut mettre en avant. Le codage des NOTE et AREA peut se faire comme un sous les autres champs, ou en utilisant le tag générique qui correspond plus dans sa philosophie à un commentaire.

La question de la représentation dans ELAN (en passant ou sans passer par un format pivot) est un autre problème. J’ai fait un programme de conversion vers ELAN, mais qui peut ne pas représenter le meilleur codage possible dans ELAN, en particulier parce que on est amené à se poser la question de l’interface utilisateur dans ELAN (ce qu’on ne fait pas dans la TEI).

Donc pour ce qui est de la conversion dans ELAN, il semble qu’il faut exploiter les possibilités d’ELAN dans la représentation des types et des acteurs. Les types permettent de croiser des tiers qui ont des positions différentes dans la hiérarchie mais qui peuvent avoir des propriétés communes (par exemple la langue). On peut également utiliser la structure de ELAN pour organiser les choses. Ce que je veux dire est qu’utiliser le nom des tiers pour l’organisation n’est pas forcément la meilleure chose du point de vue de l’utilisateur de ELAN. (...)

alexis-michaud commented 4 years ago

Pour mémoire : adresse du convertisseur en ligne de Christophe :

http://ct3.ortolang.fr/teiconvertbeta/

alexis-michaud commented 4 years ago

Pour mémoire : scripts en cours de regroupement :

https://github.com/CNRS/Pangloss/tree/master/tools/ELAN