Open lb42 opened 7 years ago
Salut Lou, Qu’est-ce qui empêche de valider l’ensemble du corpus fichier par fichier ? Les identifiants respectent exactement le patron d’URI pérenne attendu …moliere_tartuffe#l22 …moliere_tartuffe#II3 (acte II, scène 3) Beaucoup de code repose sur ces patrons identifiants pour nos pièces, il ne faut surtout pas les changer, à moins qu’il y ait une raison plus forte qu’une question technique de validation.
Validation fichier par fichier ne sert pas, par ex, si on souhaite valider ensemble une groupe de textes, pour s'assurer la coherence de l'encodage parmi cette groupe. Ou la charger dans une base de donnees. Le patron d'URI perenne n'est pas change par ma proposition: …moliere_tartuffe#M23_l22 serait pareille.
Quand Molière est chargé avec Racine en base de données, il est entendu que la portée d’un @xml:id est un fichier XML, c’est à la base de données de le prévoir. Tout les acte I portent l’identifiant I. M23 est entièrement relatif à cette collection. En vertu de quel principe attribué le numéro 23, la chronologie ? Elle est discutée. Et que se passe-t-il si on a besoin de Molière et Marivaux ? On aura des collisions M1 <-> M1. Pour éviter ces deux problèmes, nous en revenons à nos codes moliere_tartuffe, marivaux_iledelaraison, qui sont les codes Paul Fièvre (à la réserve de la casse), ce qui nous permet de partager les fichiers. …moliere_tartuffe#moliere_tartuffe_l22 n’est pas pareil.
"Il est entendu" par qui et comment?
Le code "M23" (vel sim) est entierement arbitraire et sans signification, sauf qu'il est indique comme @xml:id de l'element TEI qui entoure le reste. Je prefere beaucoup les codes "opaques" comme cela:, pour moi l'objectif d'un identifiant serait uniquement d'identifier qq chose, non pas de lui associer une semantique.
Je voulais juste dire que selon la spec XML, un utilisateur ne peut pas attendre que la portée d’un @xml:id dépasse un fichier, bien sûr, plus est toujours possible.
Pour la collection dramacode, la seule portée pertinente au delà du fichier, c'est toute la production théâtrale en langue française. L’échelle d’un seul auteur n’est pas pertinente, il y a des œuvres en collaboration.
Je vois beaucoup d’inconvénients à ta proposition, mais quels sont pour toi les avantages ?
L'avantage serait de faciliter la construction des corpus qui depasse justement le perimetre d'une seule piece (ou d'une seule version d'une piece, puisque vous en avez des variants); pas question de considerer tout la production theatrale forcement. Pieces produites ou representees autour d'une date specififique; pieces pour un public non/averti ... les questions classique de corpus linguistics quoi.
Il est impossible de traiter le corpus dans son totalite, parce que les valeurs de l''attribut @xml:id ne sont pas uniques. Par ex, il y a un @xml:id="l1" dans chacun des fichiers. Quoi faire? Je vois trois possibilites:
Preferences? Je prefere legerement le troisieme, mais peut etre ca risque de casser qqchose. Comment sont ces valeurs utilisees actuellement?