Closed alexis-michaud closed 7 years ago
Salut Alexis !
J'ai avancé sur le traitement des mots de plus de 3 syllabes, ainsi que sur les mots composés de plusieurs morceaux.
J'ai intégré les résultats :
J'aurais besoin de toi pour vérifier si les 'lc' générés te semblent corrects, et si les 'lc' non générés sont bien dus à des incohérences. Si tu vois des erreurs, peux-tu me les reporter s'il te plaît, en précisant bien le 'lx' et le 'lc' attendu ?
D'autre part, certains 'lx' contiennent les caractères suivants : '~', '=', '|', '-ADJ-', ','. Comment doivent-ils être traités ?
Merci ! A+
Tâche pour Alexis: indications détaillées concernant le traitement des formes rédupliquées : bien distinguer lx et lc, et fournir les règles de correspondance
Coucou Alexis, afin de progresser sur le sujet, une suggestion serait que tu ajoutes un exemple concret pour chaque cas possible, comme tu l'as fait de manière détaillée pour les noms dans les tableaux monosyllabique et dissyllabique. Même si ça doit te paraître évident, ça ne l'est pas forcément pour moi. Idem pour la description à faire des 3 syllabes et plus. Tous ces exemples me permettent de faire des tests plus fiables. Merci d'avance ;)
Bonjour Céline, merci beaucoup d'être prête à aller de l'avant.
Comme on en a discuté via Skype, l'enjeu maintenant c'est de proposer un outil suffisamment générique pour que le script soit réutilisable (par moi) par la suite. Cela tout en circonscrivant bien le projet: on renonce à poser les bases d'une modélisation informatique du système tonal entier (=non réalisable dans le calendrier du projet), et on se concentre sur le passage "UtoS" (Underlying to Surface).
Le nom du script est à discuter, pour qu'il reflète l'orientation (le cahier des charges). L'outil a vocation à servir au-delà du simple passage de lx à lc pour le dictionnaire: le cahier des charges, c'est: passer d'une forme "sous-jacente" à une forme "de surface".
Il convient d'apporter des modifications simples et économiques au script actuel. J'ai regardé le script; avec quelques explications de ta part je devrais arriver à m'y retrouver; espoir à vérifier empiriquement bien sûr ;-)
Proposition pour l'emboîtement des fonctions / boucles :
A bientôt par mail/Skype pour en discuter, A.
Compléments d'information pour avancer : un petit perfectionnement à apporter dans les formes lc de HimalCo/dev/scripts/na/py/Dictionary_na.txt:
ligne 41 \lx æ̃̃˩ɬi#˥ \lc æ̃̃˩ɬi˧ \ps n \np LM+#H C'est un nom disyllabique; comme indiqué dans le tableau plus haut sur cette page, ça doit donner L.H comme forme de surface: \lc æ̃̃˩ɬi˥. L'exemple donné dans le tableau est : lx: nɑ˩hĩ#˥ lc: nɑ˩hĩ˥
Le même problème apparaît pour tous les noms disyllabiques au ton LM+#H, par ex. ligne 56 : \lx ɑ˩mi#˥ \lc ɑ˩mi˧ \ps n \np LM+#H
(C'est possible que ça remonte à une mauvaise info que je t'avais fournie à une étape antérieure. Le tableau sur la page Wiki actuelle -- non modifiée depuis juin dernier -- est bon.)
Suite des compléments : perfectionnements à apporter pour obtenir les bonnes formes lc pour les mots actuellement dans HimalCo/dev/scripts/na/py/tone_errors.txt
1) comment traiter le ton (sous-jacent) L+H# exemple ligne 16: \lx æ˩gv˩-mæ˩qo˥ \lc None \ps n \np L+H# Solution : ajouter L+H# à la liste des tons. Son application: L sur toutes les syllabes, sauf la dernière, qui reçoit H. Comme l'expression ne contient pas de frontière de groupe (|), elle constitue un seul groupe tonal, et l'assignation des tons se fait "en 1 fois" (=sans tenir compte du tiret, qui reste là où il est et n'a pas d'influence sur l'assignation des tons). Je rajoute ça dans la section 4: "Les mots de 3 syllabes et plus".
Réalisé par Benjamin Galliot
(à réaliser de mai/juin 2014 à l'automne)
Génération automatique du champ \lc
Cahier des charges: pour chaque item:
J'ai mis dans le dossier dev, sous dossier "scripts Alexis", des scripts Perl, dont NaTone.pl, qui fait précisément ça: assigner des tons de surface à une expression, en fonction de son ton sous-jacent. La tâche pour toi (Céline) consiste à reprendre ce script... ou recommencer à zéro en mieux! mais les commentaires portés dans NaTone.pl pourront t'être utiles pour référence.
Le script a vocation à être générique, et à terme, devenir un programme exhaustif pour générer les tons de formes de surface en na, des expressions les plus simples (ex.: un nom dit à l'isolée) jusqu'aux plus complexes (énoncés entiers).
Dans un premier temps, il faut l'appliquer à toutes les entrées du dictionnaire pour avoir la forme de surface. Ce serait une fonction qui prendrait en entrée 1 ton abstrait (catégorie phonologique)+1 suite de syllabes et donnerait en sortie la forme de surface, pour des expressions d'1 ou plusieurs syllabes. Inutile de souligner combien cet outil est utile pour vérifier l'analyse et la faire avancer, et pour les applications pratiques.
Récapitulation des règles:
Rule 1: L tone spreads progressively (‘left-to-right’) onto syllables that are unspecified for tone. Rule 2: Syllables that remain unspecified for tone after the application of Rule 1 receive M tone. Rule 3: In tone-group-initial position, H and M are neutralized to M. Rule 4: A syllable following a H-tone syllable receives L tone. Rule 5: All syllables following a HL or ML sequence receive L tone. Rule 6: In tone-group-final position, H and M are neutralized to H if they follow a L tone. Rule 7: If a tone group only contains L tones, a post-lexical H tone is added to its last syllable.
Règles à appliquer: de la forme sous-jacente (ton dans \lx) à la forme dans \lc:
Le tableau suivant indique, pour les noms : la catégorie tonale phonologique (=abstraite/sous-jacente); la réalisation tonale en isolation; la notation du ton dans \lx; celle à adopter pour \lc; et un exemple.
Les tons pour lesquels \lc et \lx ne sont pas identiques sont mis en gras dans la colonne "in isolation".
les NOMS MONOSYLLABIQUES.
les NOMS DISYLLABIQUES. Le sigma σ représente une syllabe.
Les verbes monosyllabiques et les adjectifs. Là je te mets juste à gauche la forme sous-jacente; en gras: ceux dont la forme de surface est différente de la forme sous-jacente.
C'est là que les règles 4 et 5 (qui n'ont pas reçu d'illustration ci-dessus) entrent en jeu. (Le script Perl NaTone.pl contient les infos)
Pour les tons (phonologiques) comportant un ° il faut traiter successivement ce qu'il y a avant et après le ° Par exemple si l'expression c'est LH° et qu'il faut l'appliquer à 3 syllabes : il faut voir où se trouve la séparation morphologique dans l'expression, signalée par un tiret (-) exemple : \lx lo˩tsʰɯ˥-sɑ˩ \lc None \ps n \np LH° c'est lo˩tsʰɯ˥-sɑ˩ ce qui veut dire : 2 syllabes + 1 syllabe. on attache le LH aux 2 premières syllabes, de la façon normale : L sur 1e syll., H sur 2e. et la 3e syllabe reçoit L "par défaut": un ton H est toujours suivi par un ton L (à l'intérieur d'un même groupe tonal).
(à continuer ensemble lundi 30 mars 2015)
18 janvier 2017 :