espressif / esp-skainet

Espressif intelligent voice assistant
Other
569 stars 127 forks source link

距离较远时,语音命令的识别率较低. #14

Closed Bruce-Li-TuYuan closed 4 years ago

Bruce-Li-TuYuan commented 4 years ago

在比较安静的环境下当距离麦克风60厘米左右时,经100次语音控制测试turn/off the light,唤醒词的识别率接近100%,但语音命令的识别率只有不到20%,不知这个问题有没有优化的方案呢?补充:20~40厘米的话识别率有50%~70%.

feizi commented 4 years ago

使用microphone array algorithm 去做语音增强,我们即将发布新的硬件 esp-korvo,支持3 mic

Bruce-Li-TuYuan commented 4 years ago

我个人感觉,这是不是也和语音指令识别使用的MultiNet模型有关,使用WakeNet的唤醒词识别在同样的条件下识别率就相当好

Bruce-Li-TuYuan commented 4 years ago

补充一点,我是使用ESP-LYRAT-V4_3开发板来测试的

feizi commented 4 years ago

WakeNet识别率是优于MultiNet,但是WakeNet训练语料要求严苛,训练后无法更改为其他词,MultiNet可以在训练后自定义语音指令。

Bruce-Li-TuYuan commented 4 years ago

那不知我们是否有方法来训练这个MultiNet模型来提升它对于某些特定语音的识别率呢?

feizi commented 4 years ago

如果有对应的语料应该可以

Bruce-Li-TuYuan commented 4 years ago

那这样是不是类似定制唤醒词的流程

feizi commented 4 years ago

有点类似,主要区别是语料数量没有太多限制