Closed OrianeN closed 2 weeks ago
Pour degree, je suis d'accord avec toi, j'ai mis l'attribut degree en non obligatoire. Pour ta deuxième question, je reformule pour être sûre d'avoir compris: dans le cas où un post n'a pas de texte mais uniquement une image ou un emoji, enlever la balise certainty et l'attribut xml:lang de la balise post puisque il n'y a pas de langue particulière? Si c'est ça oui bien sûr, c'est ce qu'il faudrait faire dans l'idéal:)
Pour degree, je suis d'accord avec toi, j'ai mis l'attribut degree en non obligatoire.
Super, merci !
Pour ta deuxième question, je reformule pour être sûre d'avoir compris: dans le cas où un post n'a pas de texte mais uniquement une image ou un emoji, enlever la balise certainty et l'attribut xml:lang de la balise post puisque il n'y a pas de langue particulière? Si c'est ça oui bien sûr, c'est ce qu'il faudrait faire dans l'idéal:)
C'est ça ! Merci pour ton feedback :-)
(Rappel du contexte que tu connais déjà, pour archive) Dans le document TEI du forum Occitania, j'utilise la balise
<certainty>
pour indiquer la provenance et le degré de certitude des attributs de langue pour chaque post et chaque utilisateur.Il y a des cas où j'ai des scores par FastText ou autre (via mon implémentation), mais d'autres fois je n'ai pas de score, par exemple pour le post:
Parfois je n'ai pas de score parce que le post ne contient pas de texte après pré-processing (ex. un post qui ne contient qu'une image). À ce moment-là je ne fais pas d'appel à un service de LID.
En lien avec la doc TEI (https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-certainty.html), j'avais choisi de ne pas utiliser l'attribut "degree" dans ce cas, et de mettre à la place
type="ignorance"
.La validation avec ton schema me renvoie l'erreur "element "certainty" missing required attribute "degree"", alors est-ce que tu préfères le rendre optionnel, ou bien que j'utilise plutôt quelque chose comme degree=0 ?
D'ailleurs en regardant à nouveau les exemples qui ne contiennent pas de texte, je pourrais supprimer l'attribut xml:lang du post ainsi que la balise certainty. Qu'est-ce que tu en penses ?
Par exemple: