DOI : numéroter les unités de 1er niveau (S ou W), ne pas utiliser d'identifiants longs

alexis-michaud commented 3 years ago

A l'heure actuelle, les DOI des listes de mots (WORDLIST) sont formés en utilisant l'identifiant complet de l'unité de premier niveau : donc le W.

Ca donne des identifiants DOI comme : https://doi.org/10.24397/pangloss-0004368#WNumPlusCL_H2_Day_30to100_F4_24Sept2011_AUDIOPLUSEGG_001

Il ne faut pas utiliser les identifiants contenus dans le fichier XML, mais re-numéroter de 1 à n à partir du premier.

Ainsi, dans cet exemple, l'identifiant est simplement le DOI du document auquel on ajoute #W1 :

https://doi.org/10.24397/pangloss-0004368#W1

alexis-michaud commented 3 years ago

Au fond, il s'agit simplement de traiter les DOI des WORDLIST de façon similaire à ceux des TEXT : au lieu de #S suivi du numéro de phrase, on ajoute #W suivi du numéro de mot. C'est déjà fait à la perfection pour les TEXT : par exemple pour celui-ci, dans le XML il y a des identifiants 'maison' pour chaque élément S : <S id="Sister_S001"> et ainsi de suite. Les DOI affichés ne tiennent pas compte de cet id, et tout est pour le mieux. Ainsi, le DOI de la 1e unité S est bien affiché tel qu'on le souhaite : https://doi.org/10.24397/pangloss-0004342#S1

Autrement dit, on refait un décompte des unités de 1er niveau sans se préoccuper du contenu des balises S (ou W pour les listes de mots).

m8nli9ht commented 3 years ago

Vu. Je traite ce ticket demain ou mercredi.

m8nli9ht commented 3 years ago

ok, traité et livré. A tester

CNRS-LACITO / eastlingplayer

DOI : numéroter les unités de 1er niveau (S ou W), ne pas utiliser d'identifiants longs #40