ddavout / FESTIfr

https://github.com/ddavout/FESTIfr
0 stars 0 forks source link

is_in_poslex #17

Open ddavout opened 5 months ago

ddavout commented 5 months ago

is_in_poslex n'est pas capable de voir s'il existe une entrée dans les addenda de poslex par exemple :

(is_in_poslex "Ça")
nil

C'est d'autant plus gênant, qu'on ne peut à l'heure actuelle, mettre des entrées comportant des caractères utf8 non compatible festival

Pourtant, comme on peut le voir dans INST_LANG_token.scm cette procédure utilise lex.lookup et non lex.lookup_all,

(lex.lookup WORD FEATURES)
  Lookup word in current lexicon.  The addenda is checked first, if WORD
  with matching FEATURES (so far this is only the part of speech tag) is
  not found the compiled lexicon is checked.  Only if the word is still not
  found the letter to sound rules (or whatever method specified by the
  current lexicon's lts.method is used). [see Lookup process]
festival> (lex.lookup_all 
(lex.lookup_all WORD)
  Return list of all entries in the addenda and compiled lexicon that
  match this word.  The letter to sound rules and user defined unknown
  word function is ignored.
ddavout commented 5 months ago

On doit considérer que c'est un bug, à partir du moment où on utilise is_in_poslex, dans le tokenizer ! autrement qu'à titre d'information

            (if (is_in_poslex n_name)
              (item.set_feat (item.next token) 'pos (symbol->string (caar (is_in_poslex n_name)))  )); suppose de l'ordre ! 
            (item.set_feat (item.next token) 'whitespace ""))

item.set_feat, c'est une action pas une information.

ddavout commented 5 months ago

En plus, même quand is_in_poslex sera correcte, est-il opportun de faire intervenir un des fichier les plus lourds confer wc -l INST_LANG_freeling.poslex

ddavout commented 5 months ago

poslex peut être amélioré .. mais maintenant il n'est plus utilisé dans le tokenizer: le ticket peut retrouver sa jolie étiquette rose. Par contre, il ne faut escompter se passer de poslex dans le Tokenizer : je me suis mal exprimée dans le précédent commentaire mais si on peut faire sans par ci par là; par exemple, point besoin de faire appel à un outil statistique si on a moins de chance de se tromper en affirmant qu'après n', on a affaire à un verbe.

Shallowmallow commented 5 months ago

Il vient 'dou le code original de is_in_poslex? C'est le tien ou ça vient de quelquepart? Hmm je pourrais peut être essayer de regarder

ddavout commented 5 months ago

je pense que c'est le mien ... j'ai mis le depot en privé à la suite d'une mauvaise mise à jour je n'ai pas fait mes tests avant.. or ma touche finale a été un remplacement d'apparence tellement mineur sauf que je n'ai pas vu suspecté que le mot de remplacement était déjà utilisé ! il m'a fallu qqs minutes pour voir le pb sauf que j'ai aggravé entre temps la situation, en mettant en locale une variable du même nom que ma globale.. là s'était moins facile à voir .. du fait qu'elle était dans un let donc voilà je reprends à 0 mon tokenizer, en le rendant vraiment modulaire déjà parce qu'il y en a marre des scripts de plus de 1000 lignes entre mes fautes de frappe, mes copier-coller non contrôlés... mes fichiers non mis à jour, sauvés en écrasant mes scripts enfin corrigés ... il était temps que je prenne des mesures :)

j'y vais molo, je mets mes règles une à une, non sans vérifier,justifie,épurer avant leurs intégrations aujourd'hui je m'attaque au locution n'engageant que 2 "mots". bisous

Envoyé avec la messagerie sécurisée Proton Mail.

Le vendredi 24 mai 2024 à 9:58 PM, M @.***> a écrit :

Il vient 'dou le code original de is_in_poslex? C'est le tien ou ça vient de quelquepart? Hmm je pourrais peut être essayer de regarder

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you modified the open/close state.Message ID: @.***>