Closed sguillaume closed 11 months ago
Bien vu !
C'est lié à une question plus générale d'encodage des métadonnées (attributs). Une partie est implicite (non codée dans le texte structuré logiquement) et doit être "héritée" d'un autre niveau. Par exemple, dans un document qui n'a que des traductions dans une certaine langue, les traductions sans attribut lang
sont vraisemblablement dans cette langue.
Dans un monde parfaitement balisé, chaque élément aurait ses attributs.
À réfléchir pour Eastling, de pouvoir ajouter les attributs automatiquement lors de la saisie : on indique la langue de traduction, et toutes les traductions qu'on saisit pendant la session en question (ou : jusqu'à ce qu'on change ce paramètre) portent toutes pour attribut la langue en question ? (question qui concerne Eastling-éditeur, du coup)
Vu, modifier le parser PHP que le player appelle au chargement
(Est ce que cette info est prise au niveau du mot (W) ou morphème (W) qui eux n'ont pas d'indication de langue de traduction ? Si oui, il faudrait rectifier pour ne pas donner l'impression qu'il y a une deuxième langue de traduction au niveau de la phrase (S))
C'est exactement ça qui se passe.
Je peux faire en sorte de considérer que lorsqu'il y a des traductions de niveau W ou M sans précision, elles sont donc dans la même langue que les traductions disponibles au niveau S, mais que se passe-t-il dans le cas où on a 2 langues de traductions disponibles au niveau S ? (et qu'elles ne sont pas précisées au niveau inférieur)
En fait, l'idéal serait de n'indiquer la langue de traduction qu'au niveau où elle est spécifiée. S'il n'y a pas de langue indiquée au niveau W ou M on indique uniquement "autre" par exemple. Par contre, il me semble que si jamais il n'y a pas de langue au niveau S alors on concaténe les mots de W et c'est uniquement dans ce cas qu'il faudrait indiquer la langue de traduction qui est indiquée au niveau W. Et s'il y a 2 langues de traduction au niveau S alors on indique chacune dans une case à cocher différente. (Mais pour cette dernière partie je ne suis pas certaine d'avoir bien compris la question)
C'est faisable ainsi ?
Et s'il y a 2 langues de traduction au niveau S alors on indique chacune dans une case à cocher différente. (Mais pour cette dernière partie je ne suis pas certaine d'avoir bien compris la question)
Je mentionne un cas qui n'existe peut-être pas, mais je pensais à 2 langues de traductions au niveau S (ex : fr et en) et des traductions existantes aux niveaux W et M sans précision de langue : que ferait-on dans ce cas ?
On indiquerait forcément "fr" ou "en" si une de ces 2 langues est présentes en traduction de S (s'il y a comme traduction le chinois et l'anglais on indique l'anglais par exemple). Mais s'il y a les 2 ("fr" et "en") alors il faut choisir mais je ne saurai pas trancher car on a 1 chance sur 2 de se tromper.
Du coup peut être que le mieux est de ne pas répercuter et de mettre "autre" quand il n'y a pas de langue de traduction au niveau W et M. Et j'essaierai d'homogénéiser à terme pour faire en sorte qu'il y en ait toujours une. Ca serait une bonne solution non ?
ok, donc :
Je dirais qu'on répercute uniquement quand il n'y a aucune langue de traduction au niveau concerné W ou M. Comme ça quand j'homogénéiserai ça sera la langue au niveau W ouM qui remplacera celle transmise par S (je ne sais pas si je suis claire). En gros oui on répercute si pas renseigné et que si une seule langue au niveau S.
Ca te parait assez carré comme ça ? Sinon je suis preneuse si t'as une idée plus cohérente.
on va commencer comme ça et on verra!
ok !
Traité et livré, à tester
Il y a un souci d'affichage de certaines ressources (je ne sais pas si c'est lié). Je n'arrive pas à visualiser les annotations du na de Yongning. ex : https://doi.org/10.24397/pangloss-0004341
Ok je regarde ce qu'il se passe
Le ven. 24 févr. 2023 à 15:09, sguillaume @.***> a écrit :
Il y a un souci d'affichage de certaines ressources (je ne sais pas si c'est lié). Je n'arrive pas à visualiser les annotations du na de Yongning. ex : https://doi.org/10.24397/pangloss-0004341
— Reply to this email directly, view it on GitHub https://github.com/CNRS-LACITO/Pangloss_website/issues/206#issuecomment-1443733855, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABQ4MYGPAZ3L65XP24HL5P3WZC6JHANCNFSM6AAAAAAUOKQP4E . You are receiving this because you were assigned.Message ID: @.***>
<S id="Sister_S175">
<AUDIO start="497.5668" end="500.4643"/>
<FORM kindOf="phono">tʰi˩˥, | ə˧zɯ˩ | zo˩no˥… | æ˧ʂæ˧-hĩ˧ | <dʑɤ˩˥ mɤ˧-do˩> [mɤ˧-dʑo˩-ze˩]!</FORM>
C'est l'utilisation de balise <dʑɤ˩˥ mɤ˧-do˩>
qui pose problème car le player essaie de l'interpréter, a-t-on souvent ce cas d'utilisation ?
Quelle est l'utilité des balises < > et [ ] ?
Les gens utilisent régulièrement ces caractères effectivement. Mais < et > sont transformés en < et >. [ et ] par contre n'empêchent pas la validation du xml donc ils restent ainsi. Ca serait difficile de demander aux gens de ne plus les utiliser.
Du coup ça concerne des documents d'autres corpus aussi.
Il y a moyen de régler ça sans modifier les fichiers d'annotations xml ?
J'ai trouvé d'où vient le problème. C'est en lien (et en contradiction) avec ce ticket : https://github.com/CNRS-LACITO/Pangloss_website/issues/204
dans lequel on a fait interpréter les balises <> (pour pouvoir interpréter <FOREIGN>
et ne pas l'afficher en toute lettre).
Je n'ai pas de solution simple pour le moment, pour ne pas bloquer les utilisateurs du site, je pense que'il faut faire machine arrière et rouvrir le ticket #204 . En effet, l'utilisation des balises <> dans des annotations nous contraint à ne pas interpréter de balises et à afficher le texte tel quel, et il faut donc trouver une autre solution pour traiter le ticket #204
J'ai remis le code du player sans interprétation des balises, mais du coup les balises FOREIGN Seront visibles en tant que texte, #204 à rouvrir
Ok. C'est surement le mieux en attendant. Ca n'est pas possible d'interpréter les balises uniquement quand c'est une qui nous intéresse d'interpréter et de considérer les autres juste comme du texte ? :p
Si mais ça suppose qu'on whitelist exhaustivement les balises à interpréter, donc il faut penser à tout !
Ca devrait pouvoir le faire sans trop de pb. On en reparle lundi prochain si t'es là !
J'ai réglé le problème. A tester
J'ai réglé le problème. A tester
L'affichage est revenu (sur mon poste), dans toute sa splendeur !
Cette histoire d'avoir une balise à l'intérieur d'un champ <FORM>
, c'est pas banal, et pas répandu... mais en effet il faut réfléchir aux cas d'usages éventuels. Ca pourrait également se poser pour des appels de notes. En effet, pour l'instant, les notes se placent à un niveau donné et on peut en mettre au niveau qu'on veut (TEXT, S, W, M). Alors que ça pourrait être bien de pouvoir placer des appels de note comme ça se fait dans des livres : à l'endroit qu'on veut dans un texte (à la fin d'un mot, au milieu d'une phrase, aussi bien qu'en fin de phrase).
Bref : à reprendre en effet, sur un plan aussi générique que possible.
Commentaire suite à bref échange : éviter le code à interpréter à l'intérieur d'une balise <FORM>
Il faudra donc re-coder les quelques documents qui font usage de la balise <FOREIGN>
.
On peut utiliser des balises mais dans ce cas il faudra définir celles qu'on permet.
Le titre du ticket n'étant pas super-parlant, et le fil un peu long, je me permets de le fermer et d'en ouvrir un autre pour la question telle qu'elle ressort des échanges.
Indication d'une langue "autre" de traduction au niveau de la phrase (en plus du français) alors qu'il n'y a pas d'autre langue de traduction. -> ex. https://pangloss.cnrs.fr/corpus/show?corpus=Boomu&lang=fr&mode=pro&oai_primary=cocoon-f5ad26ac-ffbf-42a7-ad26-acffbf22a7cc&oai_secondary=cocoon-69556e97-90b3-45e5-956e-9790b365e5b9
(Est ce que cette info est prise au niveau du mot (W) ou morphème (W) qui eux n'ont pas d'indication de langue de traduction ? Si oui, il faudrait rectifier pour ne pas donner l'impression qu'il y a une deuxième langue de traduction au niveau de la phrase (S))