dramacode / moliere

Le théâtre de Molière en XML/TEI, édition LABEX OBVIL
http://obvil.paris-sorbonne.fr/corpus/moliere/moliere
4 stars 3 forks source link

Les valeurs xml:id ne sont pas uniques dans l'ensemble des fichiers #2

Open lb42 opened 6 years ago

lb42 commented 6 years ago

Il est impossible de traiter le corpus dans son totalite, parce que les valeurs de l''attribut @xml:id ne sont pas uniques. Par ex, il y a un @xml:id="l1" dans chacun des fichiers. Quoi faire? Je vois trois possibilites:

  1. Rien. On ne peut pas valider l'ensemble du corpus, tant pis.
  2. Supprimer les @xml:id existants. Si une valeur serait necessaire dans la chaine de traitement, il faut la generer a partir d'un autre attributs (par ex, @n)
  3. Transformer toutes les valeurs existantes en leur prefixant d'une code unique au fichier

Preferences? Je prefere legerement le troisieme, mais peut etre ca risque de casser qqchose. Comment sont ces valeurs utilisees actuellement?

glorieux-f commented 6 years ago

Salut Lou, Qu’est-ce qui empêche de valider l’ensemble du corpus fichier par fichier ? Les identifiants respectent exactement le patron d’URI pérenne attendu …moliere_tartuffe#l22 …moliere_tartuffe#II3 (acte II, scène 3) Beaucoup de code repose sur ces patrons identifiants pour nos pièces, il ne faut surtout pas les changer, à moins qu’il y ait une raison plus forte qu’une question technique de validation.

lb42 commented 6 years ago

Validation fichier par fichier ne sert pas, par ex, si on souhaite valider ensemble une groupe de textes, pour s'assurer la coherence de l'encodage parmi cette groupe. Ou la charger dans une base de donnees. Le patron d'URI perenne n'est pas change par ma proposition: …moliere_tartuffe#M23_l22 serait pareille.

glorieux-f commented 6 years ago

Quand Molière est chargé avec Racine en base de données, il est entendu que la portée d’un @xml:id est un fichier XML, c’est à la base de données de le prévoir. Tout les acte I portent l’identifiant I. M23 est entièrement relatif à cette collection. En vertu de quel principe attribué le numéro 23, la chronologie ? Elle est discutée. Et que se passe-t-il si on a besoin de Molière et Marivaux ? On aura des collisions M1 <-> M1. Pour éviter ces deux problèmes, nous en revenons à nos codes moliere_tartuffe, marivaux_iledelaraison, qui sont les codes Paul Fièvre (à la réserve de la casse), ce qui nous permet de partager les fichiers. …moliere_tartuffe#moliere_tartuffe_l22 n’est pas pareil.

lb42 commented 6 years ago

"Il est entendu" par qui et comment?

Le code "M23" (vel sim) est entierement arbitraire et sans signification, sauf qu'il est indique comme @xml:id de l'element TEI qui entoure le reste. Je prefere beaucoup les codes "opaques" comme cela:, pour moi l'objectif d'un identifiant serait uniquement d'identifier qq chose, non pas de lui associer une semantique.

glorieux-f commented 6 years ago

Je voulais juste dire que selon la spec XML, un utilisateur ne peut pas attendre que la portée d’un @xml:id dépasse un fichier, bien sûr, plus est toujours possible.

Pour la collection dramacode, la seule portée pertinente au delà du fichier, c'est toute la production théâtrale en langue française. L’échelle d’un seul auteur n’est pas pertinente, il y a des œuvres en collaboration.

Je vois beaucoup d’inconvénients à ta proposition, mais quels sont pour toi les avantages ?

lb42 commented 6 years ago

L'avantage serait de faciliter la construction des corpus qui depasse justement le perimetre d'une seule piece (ou d'une seule version d'une piece, puisque vous en avez des variants); pas question de considerer tout la production theatrale forcement. Pieces produites ou representees autour d'une date specififique; pieces pour un public non/averti ... les questions classique de corpus linguistics quoi.