biblissima / collatinus

Sources of Collatinus software - Latin lemmatizer, morphological analyzer and scansion
http://outils.biblissima.fr/en/collatinus
GNU General Public License v3.0
62 stars 15 forks source link

bug potentiel avec contractions.la #23

Closed PhVerkerk closed 8 years ago

PhVerkerk commented 8 years ago

Le fichier "contractions.la" a adopté des notations non-ramistes. Cela risque de poser un problème avec le comptage des "v" que contient une forme. Pas de soucis avec amaram --> amaueram. Mais si le radical contenait un "v", cela poserait un problème car l'identification de volaueram avec volaveram (de volo, as, are) ne se ferait plus. Je pense qu'il faudrait ramiser le fichier "contractions.la". Si la forme contracte contient au moins un "u" et pas de "v", on pourrait avoir affaire à un texte non-ramiste auquel cas il faut déramiser la contraction. uolaram = uolaueram --> volaveram. D'autre part, ce même fichier contient "ast:a" et d'autres "st" qui sont maintenant traités comme des suffixes. Donc inutiles. Toutefois, on peut visiblement avoir "-ust" qui est la contraction de "-us"+"st". C'est donc un cas particulier qu'il faudrait examiner lors de la dé-suffixation. En bref, si une forme se termine par "st", je dois examiner 2 cas : la forme sans le "t" final et la forme sans le "st" final. Je vois bien où intervenir. Mais avant de le faire, je voudrais avoir votre opinion.

ycollatin commented 8 years ago

Le 1 mai 2016, à 07h59, PhVerkerk écrivit :

Le fichier "contractions.la" a adopté des notations non-ramistes. Cela risque de poser un problème avec le comptage des "v" que contient une forme. Pas de soucis avec amaram --> amaueram. Mais si le radical contenait un "v", cela poserait un problème car l'identification de volaueram avec volaveram (de volo, as, are) ne se ferait plus. Je pense qu'il faudrait ramiser le fichier "contractions.la". Si la forme contracte contient au moins un "u" et pas de "v", on pourrait avoir affaire à un texte non-ramiste auquel cas il faut déramiser la contraction. uolaram = uolaueram --> volaveram. D'autre part, ce même fichier contient "ast:a" et d'autres "st" qui sont maintenant traités comme des suffixes. Donc inutiles. Toutefois, on peut visiblement avoir "-ust" qui est la contraction de "-us"+"st". C'est donc un cas particulier qu'il faudrait examiner lors de la dé-suffixation. En bref, si une forme se termine par "st", je dois examiner 2 cas : la forme sans le "t" final et la forme sans le "st" final. Je vois bien où intervenir. Mais avant de le faire, je voudrais avoir votre opinion.

D'accord avec le changement, et pour intervenir dans

master. Pour le remplacement, dans mainwindow.cpp de append

par setText, qu'en pensez-vous ?

                    Yves
PhVerkerk commented 8 years ago

L'inconvénient de setText est qu'il nous remet toujours en haut de la page. Ajouter un déplacement de curseur ou un "scroll" forcé, pour afficher les dernières infos.

En travaillant sur -st, je me suis aperçu qu'il y avait des problèmes de quantité et d'accent. Y a-t-il beaucoup de formes comme modoquest ? Je sais même le reconnaître et l'accentuer depuis peu.

Je continue sur ma branche fix-7 (fixette), mais je pense que d'ici peu on devrait pouvoir la merger avec master (sauf si vous y trouvez des bugs).

Ph.

Le Dimanche 1 Mai 2016 18:02 CEST, Yves Ouvrard notifications@github.com a écrit:

Le 1 mai 2016, à 07h59, PhVerkerk écrivit :

Le fichier "contractions.la" a adopté des notations non-ramistes. Cela risque de poser un problème avec le comptage des "v" que contient une forme. Pas de soucis avec amaram --> amaueram. Mais si le radical contenait un "v", cela poserait un problème car l'identification de volaueram avec volaveram (de volo, as, are) ne se ferait plus. Je pense qu'il faudrait ramiser le fichier "contractions.la". Si la forme contracte contient au moins un "u" et pas de "v", on pourrait avoir affaire à un texte non-ramiste auquel cas il faut déramiser la contraction. uolaram = uolaueram --> volaveram. D'autre part, ce même fichier contient "ast:a" et d'autres "st" qui sont maintenant traités comme des suffixes. Donc inutiles. Toutefois, on peut visiblement avoir "-ust" qui est la contraction de "-us"+"st". C'est donc un cas particulier qu'il faudrait examiner lors de la dé-suffixation. En bref, si une forme se termine par "st", je dois examiner 2 cas : la forme sans le "t" final et la forme sans le "st" final. Je vois bien où intervenir. Mais avant de le faire, je voudrais avoir votre opinion.

D'accord avec le changement, et pour intervenir dans

master. Pour le remplacement, dans mainwindow.cpp de append

par setText, qu'en pensez-vous ?

                    Yves

You are receiving this because you authored the thread. Reply to this email directly or view it on GitHub: https://github.com/biblissima/collatinus/issues/23#issuecomment-216051941

ycollatin commented 8 years ago

Le 1 mai 2016, à 09h21, PhVerkerk écrivit :

L'inconvénient de setText est qu'il nous remet toujours en haut de la page. Ajouter un déplacement de curseur ou un "scroll" forcé, pour afficher les dernières infos.

Bon. setText abandonné. Je vais vois si la doc n'a pas

prévu ça. QTextEdit est très riche en options de formatage.

En travaillant sur -st, je me suis aperçu qu'il y avait des problèmes de quantité et d'accent. Y a-t-il beaucoup de formes comme modoquest ? Je sais même le reconnaître et l'accentuer depuis peu.

càd modo+que+est ? Une requete "quest " dans Diogenes

renvoie 23 réponses :

Est-ce qu'il vaudrait la peine d'ajouter un suffixe -quest ?

Je continue sur ma branche fix-7 (fixette), mais je pense que d'ici peu on devrait pouvoir la merger avec master (sauf si vous y trouvez des bugs).

OK.

                    Yves
PhVerkerk commented 8 years ago

Comme tu as écrit une fonction récursive, modoquest est d'abord décomposé en modoque+st, puis en modo+que+st. Donc pas besoin d'ajouter le suffixe quest : il est reconstruit.

En revanche, il y a un pb avec la scansion des formes contractes, car tu n'as pas prévu d'ôter le "ve" ou le "vi". Je vais rapatrier decontracte, car comme pour les suffixes, j'ai besoin de savoir comment j'ai décontracté le mot.

Ph.

Le Dimanche 1 Mai 2016 18:32 CEST, Yves Ouvrard notifications@github.com a écrit:

Le 1 mai 2016, à 09h21, PhVerkerk écrivit :

L'inconvénient de setText est qu'il nous remet toujours en haut de la page. Ajouter un déplacement de curseur ou un "scroll" forcé, pour afficher les dernières infos.

Bon. setText abandonné. Je vais vois si la doc n'a pas

prévu ça. QTextEdit est très riche en options de formatage.

En travaillant sur -st, je me suis aperçu qu'il y avait des problèmes de quantité et d'accent. Y a-t-il beaucoup

de formes comme modoquest ? Je sais même le reconnaître et l'accentuer depuis peu.

càd modo+que+est ? Une requete "quest " dans Diogenes

renvoie 23 réponses :

  • aequest
  • mediamquest
  • nequest
  • quicumquest
  • quoquest
  • uterquest
  • utriquest

Est-ce qu'il vaudrait la peine d'ajouter un suffixe -quest ?

Je continue sur ma branche fix-7 (fixette), mais je pense que d'ici peu on devrait pouvoir la merger avec master (sauf si vous y trouvez des bugs).

OK.

-- Yves


You are receiving this because you authored the thread. Reply to this email directly or view it on GitHub: https://github.com/biblissima/collatinus/issues/23#issuecomment-216053945

PhVerkerk commented 8 years ago

Tu n'as pas prévu la contraction de audiverunt --> audierunt (CG p. 64 II 2°).

Ph.

Le Dimanche 1 Mai 2016 18:32 CEST, Yves Ouvrard notifications@github.com a écrit:

Le 1 mai 2016, à 09h21, PhVerkerk écrivit :

L'inconvénient de setText est qu'il nous remet toujours en haut de la page. Ajouter un déplacement de curseur ou un "scroll" forcé, pour afficher les dernières infos.

Bon. setText abandonné. Je vais vois si la doc n'a pas

prévu ça. QTextEdit est très riche en options de formatage.

En travaillant sur -st, je me suis aperçu qu'il y avait des problèmes de quantité et d'accent. Y a-t-il beaucoup

de formes comme modoquest ? Je sais même le reconnaître et l'accentuer depuis peu.

càd modo+que+est ? Une requete "quest " dans Diogenes

renvoie 23 réponses :

  • aequest
  • mediamquest
  • nequest
  • quicumquest
  • quoquest
  • uterquest
  • utriquest

Est-ce qu'il vaudrait la peine d'ajouter un suffixe -quest ?

Je continue sur ma branche fix-7 (fixette), mais je pense que d'ici peu on devrait pouvoir la merger avec master (sauf si vous y trouvez des bugs).

OK.

-- Yves


You are receiving this because you authored the thread. Reply to this email directly or view it on GitHub: https://github.com/biblissima/collatinus/issues/23#issuecomment-216053945

ycollatin commented 8 years ago

Le 1 mai 2016, à 11h06, PhVerkerk écrivit :

Tu n'as pas prévu la contraction de audiverunt --> audierunt (CG p. 64 II 2°).

Non, le double radical de parfait suffit. Dans lemmes.la

audĭo=āudĭo|audio|āudīv,āudĭ|āudīt|is, ire, iui, itum

                    Yves
eroux commented 8 years ago

j'ai mergé fix-7 dans master, je ferme