BoboTiG / ebook-reader-dict

Finally decent dictionaries based on Wiktionary for your beloved eBook reader.
http://www.tiger-222.fr/?d=2020/04/17/22/14/21-un-dictionnaire-alternatif-et-complet-pour-votre-liseuse
MIT License
391 stars 21 forks source link

[FR] Pluriels d'un mot --> Définition du mot au singulier #56

Closed NicoR45 closed 4 years ago

NicoR45 commented 4 years ago

Wiktionary page: https://fr.wiktionary.org/wiki/schmilblicks

Wikicode:

# ''Pluriel de ''[[schmilblick]].

Output:

1. Pluriel de schmilblick.

Expected:

schmilblick \ʃmil.blik\ m.
1. (À l’origine) Appareil invraisemblable ne servant à rien du tout.
2. (Après 1969) Chose, objet à deviner par des questions auxquelles on ne répond que par oui ou par non.
3. (Par extension) Quelque chose de difficile à décrire ou à cerner, un machin.
4. (Populaire) Sujet de discussion (dans l'optique de faire avancer celle-ci).

Bonjour,

L'idée serait d'afficher pour les mots aux pluriels directement la définition au singulier du mot.

Je pense qu'il y a moyen via le fichier "words". Pour l'exemple, la ligne à écrire dans le fichier "words" serait :

schmilblick, blicks

(Je ne suis pas certain du comportement de ce fichier niveau fins des mots... à tester.)

Bien cordialement NicoR

PS : serait-il possible d'avoir le fichier "words" en clair (avant marisa-build) dans ce Git ?

BoboTiG commented 4 years ago

L'idée serait d'afficher pour les mots aux pluriels directement la définition au singulier du mot.

Je m'étais posé la question pour ces mots et j'ai peut-être une solution assez simple :)

PS : serait-il possible d'avoir le fichier "words" en clair (avant marisa-build) dans ce Git ?

J'ai bien peur que non, car pour le Français, ce fichier pèse 80 Mo (16 Mo compressé). C'est immense ! Et par la suite, quand d'autres langues seront prises en charge, ça sera impossible à gérer.

Par contre, on peut envisager d'utiliser un stockage externe, mais j'avoue ne pas avoir trouvé quelque chose de durable et fiable. Mais je suis ouvert à toute idée :)

BoboTiG commented 4 years ago

Mon idée semble fonctionner correctement, c'est cool ! En gros, les définitions se rapportant au pluriel du mot sont simplement ignorées. Et la Kobo trouve toute seule le singulier d'un mot quand son pluriel n'est pas disponible (grace au fichiers words).

D'après mes tests, on passe de 582 612 mots à 327 213 (soit 255 399 définitions supprimées), joli régime !

BoboTiG commented 4 years ago

Et je viens de penser : je vais archiver le fichier data.json dans les Actions GitHub. Tout sera disponible dans les "artifacts" chaque nuit: https://github.com/BoboTiG/ebook-reader-dict/actions?query=workflow%3A%22Update+dictionaries%22.

BoboTiG commented 4 years ago

C'est en place, on verra ce soir ce que ça donne :)

BoboTiG commented 4 years ago

Voici les fichiers archivés de la dernière MàJ : https://github.com/BoboTiG/ebook-reader-dict/actions/runs/110951341, par exemple.

NicoR45 commented 4 years ago

Bonjour, o_O Eh ben quelle efficacité ! Je teste ASAP. Il faut vérifier les mots aux pluriels complexes : mots composés et ... ben je ne sais pas mais avec le français doit y avoir des pièges ^^ M'enfin après tout, ces mots doivent représenter un volume négligeable de mots. Merci pour les 2 solutions (pluriel et le json) !

NicoR45 commented 4 years ago

Pour info , dans la page Release, le lien " Téléchargement : dicthtml-fr.zip" emmène sur une page "Not Found".

BoboTiG commented 4 years ago

J'ai remarqué quelques oublis. Notamment les mots dont le pluriel diffère trop de la version au singulier. Je verrai si on peut améliorer ça.

Je fix le lien, bien vu :)

BoboTiG commented 4 years ago

Pour les mots "oubliés", ceux dont le pluriel diffère trop du singulier, on peut tenter une approche avec les variant :

    (définitions)
    <var>
        <variant name="mot1"/>
        <variant name="mot2"/>
    </var>

Par contre, il est inutile de la faire pour les pluriels "simples". Un exemple qui tomberait dans ces "variant" serait "cris". La Kobo affiche https://fr.wiktionary.org/wiki/Cris au lieu de "cri" au singulier (et c'est normal finalement). Je ne sais pas trop comment gérer ce genre de cas automatiquement depuis le code :thinking:

NicoR45 commented 4 years ago

Alors je suis fan de cette version. En terme d'ergonomie au cours d'une lecture c'est une vraie amélioration d'avoir accès directement à la définition du mot au singulier. M'enfin c'est mon avis.

Une petite déception cependant quand j'ai recherché la définition du mot yeux. On tombe sur la définition du mot yeuse au lieu de celle du mot œil.

D'après la page wiki sur les Pluriels irréguliers en français il n'y a pas tant de mots que ça à gérer en exception.

(Euh j'ai vraiment pas fait exprès de rechercher le mot yeux ^^)

NicoR45 commented 4 years ago

Pour les mots "oubliés", ceux dont le pluriel diffère trop du singulier, on peut tenter une approche avec les variant :

    (définitions)
    <var>
        <variant name="mot1"/>
        <variant name="mot2"/>
    </var>

Par contre, il est inutile de la faire pour les pluriels "simples". Un exemple qui tomberait dans ces "variant" serait "cris". La Kobo affiche https://fr.wiktionary.org/wiki/Cris au lieu de "cri" au singulier (et c'est normal finalement). Je ne sais pas trop comment gérer ce genre de cas automatiquement depuis le code

Ah zut effectivement je n'avais pas anticipé ce type de cas de figure. Il va falloir garder toutes les définitions qui ne sont pas composées que de la phrase : Pluriel de <MonMotAuSingulier>. Ce qui suppose un prétraitement de chaque définition qui ne va pas forcément être simple à mettre en place. (De plus, j'imagine que cela risque de rallonger la durée de traitement.)

BoboTiG commented 4 years ago

Alors je suis fan de cette version. En terme d'ergonomie au cours d'une lecture c'est une vraie amélioration d'avoir accès directement à la définition du mot au singulier. M'enfin c'est mon avis.

Je préfère largement aussi. Et c'est pareil pour les mots au féminin : la définition du mot masculin est affichée au lieu de "Féminin de ...".

Une petite déception cependant quand j'ai recherché la définition du mot yeux. On tombe sur la définition du mot yeuse au lieu de celle du mot œil.

D'après la page wiki sur les Pluriels irréguliers en français il n'y a pas tant de mots que ça à gérer en exception.

Exact, va falloir trouver un moyen de gérer ce genre de cas. Hop, sur la TODO liste :)

NicoR45 commented 4 years ago

Bon tant pis et désolé si je ne poste pas au bon endroit. Dans la page Releases, je suggère de recommander de systématiquement redémarrer sa liseuse après y avoir déposé le fichier dicthtml-fr.zip. Cela évitera bien des remarques/frayeurs du genre ma liseuse freeze ou ma liseuse ne trouve pas le mot alors que le mot existe dans le Wiktionnaire, etc.

BoboTiG commented 4 years ago

Pas de soucis, tu peux créer une nouvelle issue pour les sujets différents ;) J'ai MàJ la page releases, qu'en penses-tu (tu peux chipoter ^^) ?

NicoR45 commented 4 years ago

Claire et concis. Impeccable. Merci ! Promis j'ouvrirai une nouvelle issue la prochaine fois :-)