parolteknologio / stt-esperanto

Deepspeech/Coqui AI speech to text systems in Esperanto. - Parolrekoniloj en Esperanto uzante Deepspeech/Coqui Ai.
9 stars 0 forks source link

Improve vosk word list / plibonigi la vosk-an vortaron #2

Open stefangrotz opened 2 years ago

stefangrotz commented 2 years ago

The vosk model contains a vocabulary list: https://raw.githubusercontent.com/parolteknologio/stt-esperanto/master/vosk/common-voice-corpus-7/vosk-model-small-eo-0.22/graph/words.txt

It contains non-esperanto words and some words or variants are missing. These things could be improved:

Here is the documentation of the language model: https://alphacephei.com/vosk//lm

Ne hezitu respondi en esperanto :)

mmearly commented 2 years ago

Mi ne havas la kapablon helpi, sed mi nun estas en enkonduka kurso pri NLP kaj volas pli bone kompreni tion kio okazas.

Ĉu eblas plibonigi la sistemon per simpla plibonigado de la vortlisto? Laŭ mia kompreno, tio kio ja gravas estas la lingvomodelo kaj ĝia kapablo produkti gramatike ĝustajn frazojn. Sed por tio oni devus instrui ankaŭ la kuntekston en kiu la vortoj uziĝas, ĉu ne? Do por plibonigi la sistemon, ĉu oni ne devus krei tutnovan lingvomodelon?