alphacep / vosk-api

Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node
Apache License 2.0
7.57k stars 1.06k forks source link

Распознавание буквы ё #1318

Open egorgam opened 1 year ago

egorgam commented 1 year ago

Добрый день! Обратил внимание, что существующие ру модели не умеют распознавать букву ё, и если использовать словарь, оттуда выкидываются все слова, в которых присуствует эта буква.

Можете, пожалуйста, сориентировать - есть ли инструкция, как можно дообучить существующие модели, в частности чтобы покрыть этот недостаток?

nshmyrev commented 1 year ago

Мы такого не замечали. Лучше выложить примеры, где такое наблюдается.

egorgam commented 1 year ago

Вот поймал показательный случай, по сути библиотека не распознала из слов, предложенных в словаре, только те которые содержат ё. Однако, приглядевшись я понял, что скорее всего проблема в том, что с точки зрения словаря там е, и может быть, поэтому распознавание не случилось. Попробую затащить PyMorphy2 и на этапе подготовки данных проставлять ё там, где она может быть.

Снимок экрана 2023-04-02 в 07 31 18
nshmyrev commented 1 year ago

Слова с ё надо писать через ё и всё будет работать

IgorFedchenko commented 1 year ago

@egorgam Прошу прощения, если немного не в тему, но: в соседней issue (https://github.com/alphacep/vosk-api/issues/1276) столкнулся с проблемой, что слова на русском при передаче в грамматику не находятся в словаре (через c#). Я правильно вижу, что на питоне все работает как надо, в вашем случае слова без буквы ё словарь видит, находит и т.д.? Просто если так, буду копать, что не так с маршаллингом c# (я там в теме чего только не делал, чтобы слова подхватились, но так и не завелось)