xiangyuecn / Recorder

html5 js 录音 mp3 wav ogg webm amr g711a g711u 格式,支持pc和Android、iOS部分浏览器、Hybrid App(提供Android iOS App源码)、微信,提供ASR语音识别转文字 H5版语音通话聊天示例 DTMF编码解码
https://xiangyuecn.github.io/Recorder/
MIT License
4.59k stars 1.01k forks source link

关于新版本手机浏览器语音识别问题 #186

Open v2018z opened 1 year ago

v2018z commented 1 year ago

正在做实时语音识别

使用 教程】【音频流】【上传】实时转码并上传-pcm固定帧大小 配合微软实时语音识别

环境 iOS 手机, web sdk. 版本: 1.2.23061700 问题: 通常识别一两句话后,就再也识别不出来了,但切到上个版本正常,似乎是默认加了滤波的关系? 顺便问一问,语音识别太灵敏,会把附近稍远一点的人说的话识别出来,有什么办法能消除或弱化这部分音源吗?

xiangyuecn commented 1 year ago

测试的阿里云的实时语音识别正常,微软的没测试,你那有时间的话看看语音识别完成后,调用一下stop把录音数据下载下来,把没有问题的样本和有问题的样本各发一个来分析分析

附近的人的声音这个没办法,就像抠图一样 抠出想要的部分 还要自动化 很难的

v2018z commented 1 year ago

谢谢你的回答,晚点我尝试录两个样本发给你瞧瞧。电脑上正常,只是放到手机浏览器就不对了。至于后面说的减弱周围人声音这件事,我有尝试动态压缩之类的方法,但因为太黑盒也不太懂所以没有解决。粗暴的降低采样率又会造成识别度降低,比较无奈。