алгоритм работы распознавания

slavak688 commented 3 years ago

Приветствую! Не могли бы вы помочь? Я только начал работу с kaldi и попытался сделать голосовое управление роботом ардуино используя ваш проект, но мне непонятен алгоритм распознавания речи. На сайте калди я нашел математическую часть алгоритма, но не алгоритм в общем виде( имеется ввиду что-то вроде блок схемы какой пункт за каким выполняется). Может вы знаете где найти что-то подобное или на пальцах сможете написать шаги алгоритма? Заранее спасибо

SergeyShk commented 3 years ago

Привет. Основой модели является так называемый HCLG-граф. Он генерируется следующим образом:

формируется лексикон (L) из файла lexicon.txt;
генерируется грамматическая модель (G) из файла words.txt;
фонемы отображаются на слова (L+G);
добавляется контекст (C+LG);
генерируется HMM-автомат (Ha);
собирается граф (Ha + CLG);
выполняется обратный проход по графу (HCLG).

slavak688 commented 3 years ago

Спасибо!

Слава Кузнецов

Вторник, 27 апреля 2021, 19:38 +03:00 от Shkarin Sergey @.***>: Привет. Основой модели является так называемый HCLG-граф. Он генерируется следующим образом:

формируется лексикон (L) из файла lexicon.txt;

генерируется грамматическая модель (G) из файла words.txt;

фонемы отображаются на слова (L+G);

добавляется контекст (C+LG);

генерируется HMM-автомат (Ha);

собирается граф (Ha + CLG);

выполняется обратный проход по графу (HCLG). — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub , or unsubscribe .

slavak688 commented 3 years ago

А вы не подскажете какие параметры выделяются из речевого сигнала? Там же должна быть по идее огибающая, частота перехода через 0 например.

Слава Кузнецов

Вторник, 27 апреля 2021, 19:38 +03:00 от Shkarin Sergey @.***>: Привет. Основой модели является так называемый HCLG-граф. Он генерируется следующим образом:

формируется лексикон (L) из файла lexicon.txt;

генерируется грамматическая модель (G) из файла words.txt;

фонемы отображаются на слова (L+G);

добавляется контекст (C+LG);

генерируется HMM-автомат (Ha);

собирается граф (Ha + CLG);

выполняется обратный проход по графу (HCLG). — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub , or unsubscribe .

SergeyShk commented 3 years ago

Обычно используют MFCC или Mel-спектрограммы.

SergeyShk / Speech-to-Text-Russian

алгоритм работы распознавания #25

Спасибо!

А вы не подскажете какие параметры выделяются из речевого сигнала? Там же должна быть по идее огибающая, частота перехода через 0 например.