DEFI-COLaF / metadata

0 stars 0 forks source link

Make degree attribute optional in `<certainty>` elements #16

Closed OrianeN closed 2 weeks ago

OrianeN commented 3 weeks ago

(Rappel du contexte que tu connais déjà, pour archive) Dans le document TEI du forum Occitania, j'utilise la balise <certainty> pour indiquer la provenance et le degré de certitude des attributs de langue pour chaque post et chaque utilisateur.

Il y a des cas où j'ai des scores par FastText ou autre (via mon implémentation), mais d'autres fois je n'ai pas de score, par exemple pour le post:

<post when="2007-03-24T10:53" who="#P-007" xml:id="post-t00038-00139" xml:lang="met-occ">
  <certainty locus="value" match="@xml:lang" type="ignorance"/>
  <p>
    <lb/>I a tanbèn aqueste site: 
  </p>
  <p>
    <lb/><ref target="http://www.myspace.com/originaloccitana">http://www.myspace.com/originaloccitana</ref>
  </p>
  <p>
    <lb/><figure type="emoji">
      <head>Clucant</head>
      <graphic url="https://2img.net/i/fa/i/smiles/icon_wink.gif"/>
    </figure>
  </p>
</post>

Parfois je n'ai pas de score parce que le post ne contient pas de texte après pré-processing (ex. un post qui ne contient qu'une image). À ce moment-là je ne fais pas d'appel à un service de LID.

En lien avec la doc TEI (https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-certainty.html), j'avais choisi de ne pas utiliser l'attribut "degree" dans ce cas, et de mettre à la place type="ignorance".

La validation avec ton schema me renvoie l'erreur "element "certainty" missing required attribute "degree"", alors est-ce que tu préfères le rendre optionnel, ou bien que j'utilise plutôt quelque chose comme degree=0 ?

D'ailleurs en regardant à nouveau les exemples qui ne contiennent pas de texte, je pourrais supprimer l'attribut xml:lang du post ainsi que la balise certainty. Qu'est-ce que tu en penses ?

Par exemple:

<post when="2007-04-10T13:15" who="#P-004" xml:id="post-t00037-00345" xml:lang="met-occ-gas">
  <certainty locus="value" match="@xml:lang" type="ignorance"/>
  <figure type="emoji">
    <head>Risolet Progressiu</head>
    <graphic url="/users/2712/43/79/49/smiles/189553.gif"/>
  </figure>
</post>
Juliettejns commented 2 weeks ago

Pour degree, je suis d'accord avec toi, j'ai mis l'attribut degree en non obligatoire. Pour ta deuxième question, je reformule pour être sûre d'avoir compris: dans le cas où un post n'a pas de texte mais uniquement une image ou un emoji, enlever la balise certainty et l'attribut xml:lang de la balise post puisque il n'y a pas de langue particulière? Si c'est ça oui bien sûr, c'est ce qu'il faudrait faire dans l'idéal:)

OrianeN commented 2 weeks ago

Pour degree, je suis d'accord avec toi, j'ai mis l'attribut degree en non obligatoire.

Super, merci !

Pour ta deuxième question, je reformule pour être sûre d'avoir compris: dans le cas où un post n'a pas de texte mais uniquement une image ou un emoji, enlever la balise certainty et l'attribut xml:lang de la balise post puisque il n'y a pas de langue particulière? Si c'est ça oui bien sûr, c'est ce qu'il faudrait faire dans l'idéal:)

C'est ça ! Merci pour ton feedback :-)