biblissima / collatinus

Sources of Collatinus software - Latin lemmatizer, morphological analyzer and scansion
http://outils.biblissima.fr/en/collatinus
GNU General Public License v3.0
62 stars 15 forks source link

Alleluia #25

Closed eroux closed 8 years ago

eroux commented 8 years ago

(ces tickets viennent d'un retour que j'ai eu d'un moine) En essayant d'accentuer Alleluia, on tombe sur une forme un peu bizarre : Alˌleˌlúˌia (Alˌléˌluja) qui contient deux erreurs :

PhVerkerk commented 8 years ago

alleluia et alleluja (tout comme hallelujah) viennent des dicos que j'ai dépouillés. Aucun ne donne la quantité du a final. Du coup, on se retrouve dans la même situation que pour patribus, le a nu n'étant pas considéré comme une voyelle.

La bonne solution serait donc de considérer comme commune toute voyelle non marquée dans le lexique et dans l'extension. Il y en a surement beaucoup. Pour donner un exemple Abrupolis. Sans compter les 747 mots se terminant en -is de la 3e déclinaison imparisyllabique (dans l'extension), mais si on croit Quicherat p. 41 (44 du pdf) tous ces nominatifs devraient être avec un i bref. Ça fait partie de ce qu'il reste à faire...

Le Mardi 10 Mai 2016 16:37 CEST, Elie Roux notifications@github.com a écrit:

(ces tickets viennent d'un retour que j'ai eu d'un moine) En essayant d'accentuer Alleluia, on tombe sur une forme un peu bizarre : Alˌleˌlúˌia (Alˌléˌluja) qui contient deux erreurs :

  • la première, facile, est qu'il manque une virgule avant le j dans la forme entre parenthèses
  • la deuxième est que je ne comprend pas la première forme:
    • si c'est un vraiment un i, il manque une virgule entre le i et le a
    • mais je ne crois pas que ce soit un i... on trouve cela dans le Gaffiot (2016), mais ça semble être une erreur, le L&S donne bien un j... qu'en pensez-vous ?

You are receiving this because you are subscribed to this thread. Reply to this email directly or view it on GitHub: https://github.com/biblissima/collatinus/issues/25

PhVerkerk commented 8 years ago

Le Quicherat 1836 donne le a final d'alleluia comme bref et considère le i comme consonne : (h)āllĕlūjă

Le Mardi 10 Mai 2016 16:37 CEST, Elie Roux notifications@github.com a écrit:

(ces tickets viennent d'un retour que j'ai eu d'un moine) En essayant d'accentuer Alleluia, on tombe sur une forme un peu bizarre : Alˌleˌlúˌia (Alˌléˌluja) qui contient deux erreurs :

  • la première, facile, est qu'il manque une virgule avant le j dans la forme entre parenthèses
  • la deuxième est que je ne comprend pas la première forme:
    • si c'est un vraiment un i, il manque une virgule entre le i et le a
    • mais je ne crois pas que ce soit un i... on trouve cela dans le Gaffiot (2016), mais ça semble être une erreur, le L&S donne bien un j... qu'en pensez-vous ?

You are receiving this because you are subscribed to this thread. Reply to this email directly or view it on GitHub: https://github.com/biblissima/collatinus/issues/25

PhVerkerk commented 8 years ago

Je proposerais bien une modif du genre : Radical::Radical(QString g, int n, QObject parent) { _lemme = qobject_cast<Lemme >(parent); if (g.contains("a") || g.contains("e") || g.contains("i") || g.contains("o") || g.contains("u") || g.contains("y")) { g.replace("āe","ǣ"); g.replace("ăe","æ"); g.replace("ōe","œ"); g.replace("āu","ø"); g.replace("ēu","ǝ"); g.replace("a","ā̆"); g.replace("e","ē̆"); g.replace("i","ī̆"); g.replace("o","ō̆"); g.replace("u","ū̆"); g.replace("y","ȳ̆"); g.replace("ǝ","ēu"); g.replace("ø","āu"); g.replace("œ","ōe"); g.replace("æ","ăe"); g.replace("ǣ","āe"); } _grq = g; _gr = Ch::atone(_grq); _numero = n; }

C'est probablement un peu brutal. On peut mettre ça dans une fonction Ch::communes. Et revenir à une forme plus élégante Radical::Radical(QString g, int n, QObject parent) { _lemme = qobject_cast<Lemme >(parent); _grq = Ch::communes(g); _gr = Ch::atone(g); _numero = n; }

avec QString Ch:: communes(QString g); { bool maj = g[0].isUpper(); g = g.toLower(); if (g.contains("a") || g.contains("e") || g.contains("i") || g.contains("o") || g.contains("u") || g.contains("y")) { g.replace("āe","ǣ"); g.replace("ăe","æ"); g.replace("ōe","œ"); g.replace("āu","ø"); g.replace("ēu","ǝ"); g.replace("a","ā̆"); g.replace("e","ē̆"); g.replace("i","ī̆"); g.replace("o","ō̆"); g.replace("u","ū̆"); g.replace("y","ȳ̆"); g.replace("ǝ","ēu"); g.replace("ø","āu"); g.replace("œ","ōe"); g.replace("æ","ăe"); g.replace("ǣ","āe"); } if (maj) g[0] = g[0].toUpper(); return g; }

Pas essayé ! Ph.

Le Mardi 10 Mai 2016 16:37 CEST, Elie Roux notifications@github.com a écrit:

(ces tickets viennent d'un retour que j'ai eu d'un moine) En essayant d'accentuer Alleluia, on tombe sur une forme un peu bizarre : Alˌleˌlúˌia (Alˌléˌluja) qui contient deux erreurs :

  • la première, facile, est qu'il manque une virgule avant le j dans la forme entre parenthèses
  • la deuxième est que je ne comprend pas la première forme:
    • si c'est un vraiment un i, il manque une virgule entre le i et le a
    • mais je ne crois pas que ce soit un i... on trouve cela dans le Gaffiot (2016), mais ça semble être une erreur, le L&S donne bien un j... qu'en pensez-vous ?

You are receiving this because you are subscribed to this thread. Reply to this email directly or view it on GitHub: https://github.com/biblissima/collatinus/issues/25

ycollatin commented 8 years ago

Le 10 mai 2016, à 09h14, PhVerkerk écrivit :

Le Quicherat 1836 donne le a final d'alleluia comme bref et considère le i comme consonne : (h)āllĕlūjă

Ça ne fait pas vraiment avancer la question, mais je me

souviens que nos profs nous disaient que les mots hébreux n'avaient pas de quantité ni d'accentuation fixes. Pas étonnant alors qu'on trouve ou non une h initiale, un vrai i ou un vrai j, et à part le premier āţ toutes les quantités possibles sur les voyellles. Hændel l'accentue sur le u dans son célèbre Messie, mais j'ai entendu aussi des

accents sur le e.

                    Yves
eroux commented 8 years ago

Pour ce qui est de la musique, on trouve parfois aussi un vrai i dans certaines pièces de la renaissance (j'en ai une très précisément en tête, impossible de mettre un nom dessus...), mais ça ne me paraît pas vraiment utile de gérer le vrai i dans collatinus, sauf à le mettre comme rare ? Aussi, comment gère-t-on les cas où un radical peut avoir plusieurs orthographes ? est-ce qu'il faut mettre āllĕlūjă=hāllĕlūjă=hāllĕlūjăh ? Que fait-on pour la voyelle finale ? Est-ce qu'on la considère comme brève ? Et pour les i comme dans Abrupolis ?

Pour ce qui est de la fonction, même si on corrige le lexique, autant se prévenir contre d'éventuels problèmes, donc implémenter quelque chose comme ça me paraît bien. Ça me paraîtrait juste plus lisible d'utiliser des regexp, quelque chose comme

g.replace("a","ā̆");
g.replace("[^ō]e","ē̆");
g.replace("i","ī̆");
g.replace("o","ō̆");
g.replace("[^āē]u","ū̆");
g.replace("[^ā]y","ȳ̆");

(à adapter) me paraît plus optimisé et plus lisible...

ycollatin commented 8 years ago

Le 10 mai 2016, à 10h55, Elie Roux écrivit :

Pour ce qui est de la musique, on trouve parfois aussi un vrai i dans certaines pièces de la renaissance (j'en ai une très précisément en tête, impossible de mettre un nom dessus...), mais ça ne me paraît pas vraiment utile de gérer le vrai i dans collatinus, sauf à le mettre comme rare ? Aussi, comment gère-t-on les cas où un radical peut avoir plusieurs orthographes ? est-ce qu'il faut mettre āllĕlūjă=hāllĕlūjă=hāllĕlūjăh ? Que fait-on pour la voyelle finale ? Est-ce qu'on la considère comme brève ? Et pour les i comme dans Abrupolis ?

Il suffit d'ajouter dans lemmes.la ligne

hāllēlūĭā|adv|||cf. alleluia

                          Yves
ycollatin commented 8 years ago

Le 10 mai 2016, à 20h57, Yves Ouvrard écrivit :

Il suffit d'ajouter dans lemmes.la ligne
Plutôt dans lem_ext.la

                    Yves
eroux commented 8 years ago

Ok, j’attends juste l'avis de Philippe sur le a final et le i pour passer à l'action... Pour ma pièce du renaissance qui prononce le i final comme une voyelle, j'ai mis longtemps à retrouver, mais finalement ce n'était pas du latin mais du grec (un chœur grec américain qui fait de la polyphonie, c'est assez étonnant) ! Assez bizarre d'ailleurs, en slavon ils prononcent j (enfin ils font même plus fort, il y a deux i consonnes de suite ! Аллилуйя)... Bref, je ne vois aucun cas en latin où on prononce le i voyelle (dans ce que j'écoute habituellement en tous cas, càd entre le grégorien et Bach).

PhVerkerk commented 8 years ago

Je trouve les regexp généralement illisibles, même avec de la bonne volonté. Mais si ça vous plait plus...

J'avais oublié le qu où le u n'est jamais (?) voyelle. Et vous avez oublié les deux ae, notés respectivement āe et ăe. Donc : g.replace("a","ā̆"); g.replace("[^āăō]e","ē̆"); g.replace("i","ī̆"); g.replace("o","ō̆"); g.replace("[^āēq]u","ū̆"); g.replace("[^ā]y","ȳ̆");

Je n'avais pas repéré le ay comme diphtongue.

Une possibilité pour grouper les différentes graphies d'un même mot pourrait être de les séparer par des virgules. Quelque chose comme : allĕlūjă=āllĕlūjă,hāllĕlūjă,hāllĕlūjăh,āllĕlūĭă|adv|||interj.

Il y a des noms propres (grecs) au génitif en -onis, qui peuvent avoir un nominatif en -o ou en -on. Actuellement, ça fait une double lemmatisation, par exemple : Passăro=Pāssăro|5|Pāssărōn||ōnis, f. Passăron=Pāssăron|5|Pāssărōn||ōnis, f. On y gagnerait à grouper les deux, puisque le radical est le même : Passăro=Pāssăro,Pāssăron|5|Pāssărōn||ōnis, f.

Mais il faut aussi écrire le code...

Le Mardi 10 Mai 2016 19:55 CEST, Elie Roux notifications@github.com a écrit:

Pour ce qui est de la musique, on trouve parfois aussi un vrai i dans certaines pièces de la renaissance (j'en ai une très précisément en tête, impossible de mettre un nom dessus...), mais ça ne me paraît pas vraiment utile de gérer le vrai i dans collatinus, sauf à le mettre comme rare ? Aussi, comment gère-t-on les cas où un radical peut avoir plusieurs orthographes ? est-ce qu'il faut mettre āllĕlūjă=hāllĕlūjă=hāllĕlūjăh ? Que fait-on pour la voyelle finale ? Est-ce qu'on la considère comme brève ? Et pour les i comme dans Abrupolis ?

Pour ce qui est de la fonction, même si on corrige le lexique, autant se prévenir contre d'éventuels problèmes, donc implémenter quelque chose comme ça me paraît bien. Ça me paraîtrait juste plus lisible d'utiliser des regexp, quelque chose comme

g.replace("a","ā̆");
g.replace("[^ō]e","ē̆");
g.replace("i","ī̆");
g.replace("o","ō̆");
g.replace("[^āē]u","ū̆");
g.replace("[^ā]y","ȳ̆");

(à adapter) me paraît plus optimisé et plus lisible...


You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/biblissima/collatinus/issues/25#issuecomment-218237959

eroux commented 8 years ago

La diphtongue ay ne doit être présente guère que dans Raymundus (c'est le cas cité partout), pas sûr qu'elle soit très utile ici, mais qui peut le plus peut le moins... Effectivement votre proposition a l'air bien, je change le alleluja dans le lexique, ferme le ticket et en rouvre un pour ça !

ycollatin commented 8 years ago

Une possibilité pour grouper les différentes graphies d'un même mot pourrait être de les séparer par des virgules. Quelque chose comme : allĕlūjă=āllĕlūjă,hāllĕlūjă,hāllĕlūjăh,āllĕlūĭă|adv|||interj.

Il y a des noms propres (grecs) au génitif en -onis, qui peuvent avoir un nominatif en -o ou en -on. Actuellement, ça fait une double lemmatisation, par exemple : Passăro=Pāssăro|5|Pāssărōn||ōnis, f. Passăron=Pāssăron|5|Pāssărōn||ōnis, f. On y gagnerait à grouper les deux, puisque le radical est le même : Passăro=Pāssăro,Pāssăron|5|Pāssărōn||ōnis, f.

Mais il faut aussi écrire le code...

Je trouve que c'est une excellente idée. Et interpréter un renvoi "cf. " est peut-être plus lourd que faire la même chose en détectant une liste dans le premier champ. Il faut simplement que les radicaux restent les mêmes.

Je suis en train de corriger cdco pour qu'il traduise correctement lemmata.la vers lemmes.la. Je ferai ensuite un diff pour voir quelles entrées j'ai ajoutées, puis je

créerai une branche pour cette amélioration du format.

                    Yves
eroux commented 8 years ago

D'autant que les renvois cf. utilisent les graphies non-ramistes, ça peut peut-être poser des problèmes...

PhVerkerk commented 8 years ago

Il faudrait probablement déramiser le renvoi cf. pour que l'on puisse ne pas avoir à s'en soucier. Les clefs sont non-ramistes.

Le 11/05/2016 11:18, Elie Roux a écrit :

D'autant que les renvois |cf.| utilisent les graphies non-ramistes, ça peut peut-être poser des problèmes...

— You are receiving this because you commented. Reply to this email directly or view it on GitHub https://github.com/biblissima/collatinus/issues/25#issuecomment-218405829

eroux commented 8 years ago

Pour en revenir au problème du i vs. j dans alleluia, je crois que je commence à comprendre d'où vient ce i semi-consonne noté i et pas j : je suis en train (par hasard, ça tombe bien), d'écouter du plain chant du XVIII (d'Auxerre), prononcé avec l'accent de cette époque. Je pense que la clé est là : à l'époque (en France) il semblerait qu'on prononçait les j comme des j français (ejus prononcé comme éjus en français, Jesus comme en français, etc.), donc le j ne notait pas un i consonne mais un vrai j, et le i consonne reste noté i... ça expliquerait le Du Cange qui note Alleluia (vu qu'on prononce le i comme un i consonne et pas comme un j), et ça serait bien une erreur dans le Gaffiot... Que pensez-vous de cette théorie ?

ycollatin commented 8 years ago

Le 11 mai 2016, à 02h37, Elie Roux écrivit :

Pour en revenir au problème du i vs. j dans alleluia, je crois que je commence à comprendre d'où vient ce i semi-consonne noté i et pas j : je suis en train (par hasard, ça tombe bien), d'écouter du plain chant du XVIII (d'Auxerre), prononcé avec l'accent de cette époque. Je pense que la clé est là : à l'époque (en France) il semblerait qu'on prononçait les j comme des j français (ejus prononcé comme éjus en français, Jesus comme en français, etc.), donc le j ne notait pas un i consonne mais un vrai j, et le i consonne reste noté i... ça expliquerait le Du Cange qui note Alleluia (vu qu'on prononce le i comme un i consonne et pas comme un j), et ça serait bien une erreur dans le Gaffiot... Que pensez-vous de cette théorie ?

Pour la prononciation, je confirme. Dès le XVIIème, la

prononciation française du latin devient complètement délirante. les 'u' sont prononcés 'ü', et les j comme des j français. Certaines cantates sacrées accentuent n'importe quelle syllabe du mot. Le pire, c'est qu'ils en sont fiers. En 1870, au Vatican, plusieurs s'étaient plaints de ne pas pouvoir comprendre le latin de l'évêque de Poitiers. Il a répondu : « Gallus sum et gallice loquor ». À peu près : Galüs som é galissé lokor. Jusqu'en 1930, existait une /Association des amis de la prononciation française du latin/. À vrai dire, nous en souffrons encore, et j'ai très rarement entendu un de mes collègues placer correctement les

accents latins.

                    Yves