Chartes-TNAH / cartulaires

0 stars 5 forks source link

Identification des passages : méthode #17

Open alix-tz opened 6 years ago

alix-tz commented 6 years ago

Il faudrait que l'on se mette d'accord sur la manière dont va fonctionner l'identification des passages.

alix-tz commented 6 years ago

Voici les guidelines TEI pour l'élément RefsDec, qui vont certainement nous servir :
http://www.tei-c.org/release/doc/tei-p5-doc/fr/html/ref-refsDecl.html

alix-tz commented 6 years ago

RESULTAT TRAVAIL DE GROUPE

@lduflos, voici ce que donne notre lecture commune de la doc, de l'exemple du cours-git et d'exemples tirés de Canonical GreekLit :

Le chemin xPath utilise des variables ($1, $2, etc...), où l'API (?) envoie la valeur du passage qui est cherché. Par exemple si c'est "2" qui est envoyé à [...]@n="$1" : ça veut dire qu'on cherche [...]@n="2".


Les guidelines CapiTainS nous précisent :

Pour le moment, il n'y des @n que pour les éléments /tei/text/group/group/text et les //pb. On a donc un travail à faire pour créer le xPath des éléments /tei/text/group/group/text ; puis il faudra envisager d'ajouter des niveaux supplémentaires de citation, ce qui nécessite une réflexion avec tout le groupe.

alix-tz commented 6 years ago

Il y a aussi des @n associés aux éléments witness qui sont dans la div type="tradition".

alix-tz commented 6 years ago

RESULTAT TRAVAIL DE GROUPE

On aboutit à la proposition suivante pour identifier les citations pour les noeuds <text> :

<refsDecl n="CTS">
  <cRefPattern 
      n="charte" matchPattern="(\w+)" <!-- vérifier la terminologie -->
      replacementPattern="#xpath(/tei:TEI/tei:text/tei:group/tei:group/tei:text[@n='$1'])">
      <p>Ce pointeur extrait les chartes</p> <!-- terminologie à vérifier -->
  </cRefPattern>
</refsDecl>

@TNAHMP , peux-tu nous confirmer que tous les "articles" d'un cartulaires sont des "chartes" ?

@architexte et @PonteIneptique , pourriez-vous nous donner un avis sur notre "prototype" de refsDecl ?


Questions qui restent sans réponse pour le moment :

PonteIneptique commented 6 years ago

Le prototype semble bon de mon côté. Peut-être peut-on aussi proposer l'extraction au choix du front, du body et du back ?

lduflos commented 6 years ago

Concernant l'extraction, je trouve pertinent de le faire pour le front (tradition) et le body (transcription). Pour le back (notes), il faut prendre en compte que seulement certaines chartes en possèdent un et que pour le fichier de St Leu, le back (notes) est général et donc encodé dans un niveau supérieur (/TEI/text/back/)

alix-tz commented 6 years ago

@lduflos je me charge d'ajouter le morceau d'xml qu'on a construit ensemble la semaine dernière.
Je propose que pour le moment nous n'ajoutions que les passages pour les actes, puisqu'ils sont déjà numérotés et qu'on est en mesure de finir cette section du travail d'ici l'échéance du devoir.

Je suis d'accord avec tes remarques, mais je suggère qu'on se mette tous ensemble d'accord sur les niveaux supplémentaires de description des passages dans une autre issue. Il nous faudra en effet ajouter de nombreux attributs "n" dans les fichiers xml et il n'est pas certain que nous aurons le temps de traiter les 4 fichiers vu qu'il reste de nombreux problèmes signalés par Travis par ailleurs.

Pour avoir cette discussion, il sera utile que @Caillibot , @TNAHMP , @eglantinecharmetant et @AnneLHuet lisent la discussion que nous avons eu ici.

MPica commented 6 years ago

@alix-tz , je pense effectivement les balises <text> avec @type="article" désignent des "chartes".

alix-tz commented 6 years ago

Merci @TNAHMP


Après une première tentative d'ajout du bloc dans les fichiers xml, Oxygen me signale que l'élément refsDecl n'est pas attendu dans encodingDesc.

@lduflos , penses-tu aussi qu'il va falloir adapter le schéma pour inclure ce morceau de code ?