Closed alexis-michaud closed 3 years ago
Au fond, il s'agit simplement de traiter les DOI des WORDLIST de façon similaire à ceux des TEXT : au lieu de #S
suivi du numéro de phrase, on ajoute #W
suivi du numéro de mot.
C'est déjà fait à la perfection pour les TEXT : par exemple pour celui-ci, dans le XML il y a des identifiants 'maison' pour chaque élément S : <S id="Sister_S001">
et ainsi de suite. Les DOI affichés ne tiennent pas compte de cet id
, et tout est pour le mieux.
Ainsi, le DOI de la 1e unité S est bien affiché tel qu'on le souhaite :
https://doi.org/10.24397/pangloss-0004342#S1
Autrement dit, on refait un décompte des unités de 1er niveau sans se préoccuper du contenu des balises S (ou W pour les listes de mots).
Vu. Je traite ce ticket demain ou mercredi.
ok, traité et livré. A tester
A l'heure actuelle, les DOI des listes de mots (WORDLIST) sont formés en utilisant l'identifiant complet de l'unité de premier niveau : donc le W.
Ca donne des identifiants DOI comme :
https://doi.org/10.24397/pangloss-0004368#WNumPlusCL_H2_Day_30to100_F4_24Sept2011_AUDIOPLUSEGG_001
Il ne faut pas utiliser les identifiants contenus dans le fichier XML, mais re-numéroter de 1 à n à partir du premier.
Ainsi, dans cet exemple, l'identifiant est simplement le DOI du document auquel on ajoute
#W1
:https://doi.org/10.24397/pangloss-0004368#W1