CNRS-LACITO / HimalCo

Himalayan Corpora
Other
2 stars 1 forks source link

[dictionnaire na] ordre des entrées : tons #68

Closed alexis-michaud closed 6 years ago

alexis-michaud commented 9 years ago

Dans le chapitre - f - l'entrée

fv˩˧ 'le voisinage'

est séparée de l'entrée fv˧ 'joyeux' par tous les disyllabes. Ces 2 entrées devraient se suivre: d'abord les monosyllabes identiques par leurs consonnes et voyelles (ex.: toutes les syllabes /fv/, qui ne diffèrent que par le ton), puis les disyllabes.

buret commented 9 years ago

L'ordre obtenu, à savoir : 1) fv˧ 2) fv˧kʰo˥ 3) fv˧ʂɯ˩ 4) fv˩bi˩ 5) fv˩˧ correspond à l'ordre des tons défini dans le fichier sort_order.xml : ˥ ˧ ˩ ˧˥ ˩˥ ˩˧ notamment que le ton ˩˧ sera classé après les tons ˧ et ˩. Donc à ce stade, le résultat obtenu correspond à ce qui est défini.

Si tu veux que les entrées fv˧ et fv˩˧ se suivent, cela veut dire changer le système de classification...

alexis-michaud commented 9 years ago

Oui, c'est une chose que j'ai omis d'expliciter, et en effet ça demande maintenant de modifier le système de classification... Au temps pour moi ! Mes excuses de ne pas avoir bien expliqué ça dès le départ.

Tous les monosyllabes de même composition syllabique (ex.: toutes les syllabes /fv/, quel que soit leur ton: fv˥ fv˧ fv˩ fv˧˥ fv˩˥ fv˩˧...) doivent se suivre dans le dictionnaire, et précéder les disyllabes. Il faut donc
(C'est bien sûr pareil pour toutes les syllabes, pas juste /fv/.)

Comment expliquer ça clairement :

Par exemple s'il y a fv˧ fv˧kʰo˥ fv˧ʂɯ˩ fv˩bi˩ fv˩˧

on commence par trier en : monosyllabes fv˧ fv˩˧ et disyllabes fv˧kʰo˥ fv˧ʂɯ˩ fv˩bi˩

Parmi les disyllabes, on trie par ordre alphabétique de la 2e syllabe (sans tenir compte des tons), ce qui donne : fv˩bi˩ fv˧kʰo˥ fv˧ʂɯ˩

Pour essayer d'envisager tous les cas de figure possible, ajoutons 2 exemples fictifs, fv˥bi˩ et fv˥bv˩: ceux-ci trouveraient leur place dans le voisinage immédiat de fv˩bi˩, puisque la 1e syllabe (sans le ton) est la même. Le mot fv˥bv˩ serait le dernier des trois, puisque sa 2e syllabe, /bv/, se classe après /bi/ (ordre : æ... i... v etc). Parmi fv˩bi˩ et fv˥bi˩, c'est fv˥bi˩ qui viendrait en premier : les 2 syllabes étant identiques, on regarde les tons, et on classe le ton Haut (˥) en premier, en vertu de l'ordre défini : ˥ ˧ ˩ ˧˥ ˩˥ ˩˧

Ca donne donc : (exemple fictif) fv˥bi˩ fv˩bi˩ fv˥bv˩ fv˧kʰo˥ fv˧ʂɯ˩

Exemple réel: entrée f du dictionnaire: fɑ˩a fv˧ fv˩˧ fv˩bi˩ fv˧kʰo˥ fv˧ʂɯ˩

A nouveau mes excuses de ne pas avoir suffisamment expliqué plus tôt.

alexis-michaud commented 9 years ago

Une idée : comme l'ordre de classement qui traite les tons comme les autres caractères est déjà implémenté et fonctionnel, pourrais-tu, pour la version en ligne, proposer un CHOIX entre 2 classements?

avec comme explication:

Pour la version PDF, ce serait l'ordre 'Tone-last' qui serait employé.

Si tu le souhaites, pour être bien sûr que je t'ai fourni tout ce dont tu as besoin pour programmer cet ordre 'Tone-last', je pourrais préparer une liste d'entrées dans l'ordre souhaité, pour un échantillon substantiel du dictionnaire. Tu me diras.

alexis-michaud commented 7 years ago

Diagnostic de Benjamin : à première vue, la combinaison algorithme de tri et recherche du script ad hoc intégré n'est pas triviale et demandera un travail un poil plus long qu'une simple modification de ligne à la volée. Diagnostic d'Alexis : je balance en l'état aux collègues chinois et s'ils crient au meurtre on s'y colle.

alexis-michaud commented 6 years ago

Toujours à l'ordre du jour pour 2017-2018, si qqn est dispo pour regarder.