Chartes-TNAH / digiliblt

Capitains version of DigilibLT data
http://digiliblt.lett.unipmn.it/
0 stars 7 forks source link

(3/5) Correction du fichier 'stoa0012a.stoa003' #95

Closed r-verny closed 3 years ago

r-verny commented 3 years ago

Troisième fichier XML CapiTainS à corriger pour la validation du cours de git.

Le chemin vers le fichier est le suivant : data/stoa0012a/stoa003/stoa0012a.stoa003.digilibLT-lat1.xml

Erreurs indiquées par le Hooktest à corriger :

r-verny commented 3 years ago

Bonjour monsieur, j'aurais une question à propos de la correction à mettre en place sur ce document. J'ai un xpath dans le cRefPattern qui permet pour l'instant l'extraction des paragraphes dans le texte. Cependant, le texte se présente sous cette forme (j'ai numéroté les paragraphes) : image

Le problème est que le xpath actuel dans le pointer ne permet pas de récupérer la div "opus", ni le head, ni le milestone (qui n'est par ailleurs pas citable dans CapiTainS il me semble). Comment faire dans ce cas-là ? J'ai pensé à extraire l'intégralité du texte en utilisant un xpath qui s'arrête à la div "opus" comme je l'avais fait sur une correction précédente, mais je ne sais pas si c'est la meilleure solution dans la mesure où le texte est assez long...

PonteIneptique commented 3 years ago

Pour un head unique tel que celui-ci, ce n'est pas un problème. La milestone, non plus, au pire, glissez la dans le <p n="1">. Mais le plus important ce sont les noeuds textuels (<lg>, <ab>, <p>) donc ici je ne m'inquièterais pas pour le head et la milestone.

PonteIneptique commented 3 years ago

Fixed by #98