chenkui164 / FastASR

这是一个用C++实现ASR推理的项目,它依赖很少,安装也很简单,推理速度很快,在树莓派4B等ARM平台也可以流畅的运行。 支持的模型是由Google的Transformer模型中优化而来,数据集是开源wenetspeech(10000+小时)或阿里私有数据集(60000+小时), 所以识别效果也很好,可以媲美许多商用的ASR软件。
Apache License 2.0
482 stars 74 forks source link

升级提议:通过集成silero-vad强化VAD质量 #43

Open acely opened 1 year ago

acely commented 1 year ago

Hi 非常感谢FastASR的易用性!我在测试识别长音频的时候,手头有些音频素材的背景噪音较大,导致webrtc的vad不能很好地进行端点判断。正巧之前测试过一个基于学习的vad效果很好,https://github.com/snakers4/silero-vad 不知道大佬是否有兴趣将其集成进来?

chenkui164 commented 1 year ago

好的,感谢。我先测试和评估一下

chenkui164 commented 1 year ago

要是噪声大的话,是不是可以先将原始音频过一组低通滤波,滤除高频的噪声?

acely commented 1 year ago

要是那种纯白噪声或者粉噪声就好办了,我套个滤镜就能解决。实际情况是,很多场景的噪声是环境随机噪声,比如:办公室嘈杂声、背景电视节目声、窗外汽车噪声、鸟鸣声、风噪声等。

cgisky1980 commented 1 year ago

说实话 还是用硬件的靠谱

cgisky1980 commented 1 year ago

https://github.com/PaddlePaddle/FastDeploy/tree/develop/examples/audio/silero-vad/cpp
飞桨的FastDeploy 把 silero-vad 搞进去了