CNRS-LACITO / HimalCo

Himalayan Corpora
Other
2 stars 1 forks source link

[dict na] UID : bugs et questions #69

Closed alexis-michaud closed 9 years ago

alexis-michaud commented 9 years ago

Pour les identifiants des mots (UID) :

1) les entrées contenant un signe égal (=) ont un UID qui ne reflète que la partie avant le signe égal. Exemple: ɲi˩=ɻ˥ UID=Ji_B1

2) il semble que le dernier chiffre du UID soit simplement la copie de l'avant-dernier? Par exemple: le 2e "1" contient-il une information utile dans : UID=qA_M_T11 qæ˥ɭɯ˩ UID=q{_Tl_RM_B11 ?

Maintenant qu'il n'y a plus de \se dans le dictionnaire, serait-il possible de simplifier en retirant ce dernier chiffre?

Merci bcp d'ajouter des commentaires dans HimalCo/dev/lib/lmf/src/utils/uid/uid.py qui expliquent la "syntaxe" du UID: "translittération" en X-SAMPA "adapté" des caractères API, puis ajout d'un chiffre indiquant le numéro d'homophone...? Les commentaires dans le script seraient un bon endroit où indiquer ces infos.

3) serait-il possible de basculer entre la version PDF "complète" (avec UID) et une version "pour les lecteurs", sans le UID, en commentant/décommentant une ligne dans run_na.py? Ca semble être ligne 32

HimalCo/dev/lib/lmf/user/na/alexis/run_na.py

Merci bcp !

buret commented 9 years ago

1) Il faut savoir que le signe '=' n'est prévu dans aucun des convertisseurs IPA vers XSAMPA que j'ai testés... A éviter donc. J'ai quand même ajouté ce signe dans le convertisseur que j'utilise dans ma bibliothèque pour ne pas que tu aies des UID erronés.

2) Ce double chiffre était un bug. C'est corrigé.

3) J'ai ajouté une option pour inclure ou non l'UID dans la sortie PDF. Il s'agit de l'option '-i' que tu peux ajouter ou enlever à l'appel du script run_na.py. Donc si tu utilises le script run_na.bat, cela signifie simplement ajouter l'option '-i' à la ligne qui appelle le script run_na.py, par exemple : python user/na/alexis/run_na.py -i Par défaut, l'UID ne sera pas présent dans le PDF. D'autre part, il existe déjà dans le répertoire "result" généré par l'appel du script, un fichier au format Toolbox contenant les UID. Il s'agit du fichier "dictionary-uid.txt" qui sera généré de toute façon, option activée ou pas.

alexis-michaud commented 9 years ago

1) :+1: 2) :+1: 3) :+1: