hipster-philology / nlp-pie-taggers

Extension for pie to include taggers with their models and pre/postprocessors
Mozilla Public License 2.0
11 stars 3 forks source link

Tokenizer fr #18

Closed PonteIneptique closed 4 years ago

PonteIneptique commented 4 years ago

@Jean-Baptiste-Camps Je ne sais plus si le modèle FR a été entraîné avec les apostrophes sur q' et autre. En preproc, on avait aussi dit que j'enlevais les "-t-" et les "-" de "mangeons -nous" c'est ca ?

Jean-Baptiste-Camps commented 4 years ago

@Jean-Baptiste-Camps Je ne sais plus si le modèle FR a été entraîné avec les apostrophes sur q' et autre.

oui

En preproc, on avait aussi dit que j'enlevais les "-t-" et les "-" de "mangeons -nous" c'est ca ?

non. On garde le tiret de -ce, -ci, etc., à mon avis.

Pour les -t-, c'est plus compliqué. Pour l'instant, le modèle s'attend à le voir sur le verbe

Mais, dans la discussion de l'autre jour, le principe qui s'est imposé est plutôt:

donne et -t-on

(on verra comment le gérera le modèle… il en a vu des cas issus de Frantext pour les lemmes. Par contre, il n'en a pas vu pour les POS et la morph, ce qui va poser problème).

Attention au t' élidé qui est autre chose:

MAIS

PonteIneptique commented 4 years ago

Je vais ajouter un test pour le t' mais pas sûr que ca bugue à l'heure actuelle.

PonteIneptique commented 4 years ago

@Jean-Baptiste-Camps je te laisser tester puis je mergerai.