biblissima / collatinus

Sources of Collatinus software - Latin lemmatizer, morphological analyzer and scansion
http://outils.biblissima.fr/en/collatinus
GNU General Public License v3.0
66 stars 15 forks source link

possibilité d'enlever les accents #12

Closed eroux closed 8 years ago

eroux commented 8 years ago

Collatinus 10.3 offre la possibilité de débarasser un texte de ses accents (aigus, breve macron), ce qui est assez pratique. J'aurais tendance à le faire automatiquement (comme pour œ et æ), mais je vous laisse voir, dans la 10.3 c'est une action dans le menu.

PhVerkerk commented 8 years ago

L'action dans le menu est un choix, car une façon souvent utilisée pour importer un texte est le copier-coller. Si on a récupéré un texte accentué, il peut être utile d'ôter les accents, par une commande. Je pense qu'un copier-coller de : void fenestra::oteDiac() { QString contenu = EditLatin->toPlainText (); contenu = contenu.normalized(QString::NormalizationForm_D,QChar::currentUnicodeVersion()); contenu.remove("\u0301"); contenu.remove("\u0306"); contenu.remove("\u0304"); EditLatin->setPlainText(contenu); } fera l'affaire.

ycollatin commented 8 years ago

Le 28 avril 2016, à 03h36, PhVerkerk écrivit :

void fenestra::oteDiac() Tu travailles encore sur C10 ?

fenestra n'existe plus dans C11.

                              Yves
PhVerkerk commented 8 years ago

Travaillais ! C'est ce que j'avais écrit il y a 15 jours. Mais il suffit probablement de remplacer fenestra par mainwindow (peut-être avec majuscule).

Le 28/04/2016 12:55, Yves Ouvrard a écrit :

Le 28 avril 2016, à 03h36, PhVerkerk écrivit :

void fenestra::oteDiac() Tu travailles encore sur C10 ?

fenestra n'existe plus dans C11.

Yves

— You are receiving this because you commented. Reply to this email directly or view it on GitHub https://github.com/biblissima/collatinus/issues/12#issuecomment-215387653

ycollatin commented 8 years ago

Le 28 avril 2016, à 05h22, PhVerkerk écrivit :

Travaillais ! C'est ce que j'avais écrit il y a 15 jours. Mais il suffit probablement de remplacer fenestra par mainwindow (peut-être avec majuscule).

OK. D'accord pour nettoyer les ligatures æ et ½, et les

accents directement dans l'interface. Il faudra supprimer mes deux lignes "replace..." au début de Lemmatiseur::lemmatise().

                    Yves
PhVerkerk commented 8 years ago

Pas sûr que ce soit une bonne chose, car cela supprime la distinction possible entre Æneas et Aeneas. Dans la 10.3, je ne l'ai pas fait.

Le 28/04/2016 14:37, Yves Ouvrard a écrit :

Le 28 avril 2016, à 05h22, PhVerkerk écrivit :

Travaillais ! C'est ce que j'avais écrit il y a 15 jours. Mais il suffit probablement de remplacer fenestra par mainwindow (peut-être avec majuscule).

OK. D'accord pour nettoyer les ligatures æ et ½, et les accents directement dans l'interface. Il faudra supprimer mes deux lignes "replace..." au début de Lemmatiseur::lemmatise().

Yves

— You are receiving this because you commented. Reply to this email directly or view it on GitHub https://github.com/biblissima/collatinus/issues/12#issuecomment-215410392

ycollatin commented 8 years ago

Le 28 avril 2016, à 05h40, PhVerkerk écrivit :

Pas sûr que ce soit une bonne chose, car cela supprime la distinction possible entre Æneas et Aeneas. Dans la 10.3, je ne l'ai pas fait.

Comme je n'ai pas suivi attentivement depuis le début,

je risque d'avoir mal compris. Ça voudrait dire que les textes pratiquant la ligature Æ font la distinction avec A+e, et écrivent Æneas pour Énée et Aeneas en début de phrase pour l'acc. fém pl. de ăēneus ? Il y en a des exemples ?

Si oui, mieux vaut en effet placer dans deramise

les transformation Æ -> Āe et Ae -> Ae, le radical se

chargeant de la scansion. J'ai besoin d'une mise à niveau.

                    Yves
eroux commented 8 years ago

Les textes liturgiques distinguent ær et aer par exemple oui (enfin je ne suis pas totalement sûr d'avoir bien compris votre question). Si vous prenez par exemple le psaume 13 vous verrez lætábitur Israel (æ disphtongue, ae deux voyelles distinctes).

eroux commented 8 years ago

P.S.: diphtongue historique d'ailleurs, puisque æ est prononcée é en latin liturgique...

ycollatin commented 8 years ago

Le 28 avril 2016, à 06h20, Elie Roux écrivit :

P.S.: diphtongue historique d'ailleurs, puisque æ est prononcée é en latin liturgique...

D'accord. Donc dans deramise(). Attendons l'imprimatur

de Philippe.

                    Yves
PhVerkerk commented 8 years ago

Je pense que les transformation æ --> ae, Æ --> Ae, œ --> oe et Œ --> Oe ont leur place dans deramise. En ayant compté les v, æ et œ que le mot contient avant de déramiser. Voir début de Lexicum::corAnalyses de la 10.3, mais je n'avais pas pensé à remonter les replace dans Ch::jviu.

Le 28/04/2016 15:29, Yves Ouvrard a écrit :

Le 28 avril 2016, à 06h20, Elie Roux écrivit :

P.S.: diphtongue historique d'ailleurs, puisque æ est prononcée é en latin liturgique...

D'accord. Donc dans deramise(). Attendons l'imprimatur

de Philippe.

Yves

— You are receiving this because you commented. Reply to this email directly or view it on GitHub https://github.com/biblissima/collatinus/issues/12#issuecomment-215422923

eroux commented 8 years ago

je crée une branche fix-12, je propose de pousser les changements dedans, je vais en pousser quelques uns tout à l'heure

eroux commented 8 years ago

J'ai poussé deramise et le bout de code qui compte les v, æ et œ, par contre pour le reste du portage du code de la 10.3, il y a des choses qui vont trop loin pour que j'intervienne dessus sans tout casser... il y a par exemple est_V_phage() qui a l'air d'avoir besoin de certaines choses dans le format de la désinence, et je ne sais pas si ça a changé avec Collatinus-11 ni comment tester, du coup je préfère laisser @PhVerkerk faire pour la suite...

eroux commented 8 years ago

(j'ai implémenté Ch:deAccent qui désaccentue une QString, la fonction n'est pas encore utilisée)

eroux commented 8 years ago

En fait ce serait pratique aussi d'enlever les trémas, j'en trouve assez souvent dans certains textes liturgiques : eleïson souvent, mais parfois aussi pour différencier les ae diphtongues des ae non-diphtongues (Israël par exemple). Il serait donc pratique de rajouter U+0308 dans la liste des accents à enlever.

Aussi, je ne sais pas à quel niveau c'est bien de le faire, mais on trouve dans certains textes (pas spécialement liturgiques) ç et Ç en lieu et place de s et S (dans le Du Cange par exemple), peut-être qu'on peut rajouter ça à déramise ou à deaccent ? ou renommer deaccent en... je ne sais pas quoi ?