升级提议：通过集成silero-vad强化VAD质量

chenkui164 / FastASR

这是一个用C++实现ASR推理的项目，它依赖很少，安装也很简单，推理速度很快，在树莓派4B等ARM平台也可以流畅的运行。支持的模型是由Google的Transformer模型中优化而来，数据集是开源wenetspeech(10000+小时)或阿里私有数据集(60000+小时)，所以识别效果也很好，可以媲美许多商用的ASR软件。

Apache License 2.0

487 stars 76 forks source link

升级提议：通过集成silero-vad强化VAD质量 #43

Open acely opened 1 year ago

acely commented 1 year ago

Hi 非常感谢FastASR的易用性！我在测试识别长音频的时候，手头有些音频素材的背景噪音较大，导致webrtc的vad不能很好地进行端点判断。正巧之前测试过一个基于学习的vad效果很好，https://github.com/snakers4/silero-vad 不知道大佬是否有兴趣将其集成进来？

chenkui164 commented 1 year ago

好的，感谢。我先测试和评估一下

chenkui164 commented 1 year ago

要是噪声大的话，是不是可以先将原始音频过一组低通滤波，滤除高频的噪声？

acely commented 1 year ago

要是那种纯白噪声或者粉噪声就好办了，我套个滤镜就能解决。实际情况是，很多场景的噪声是环境随机噪声，比如：办公室嘈杂声、背景电视节目声、窗外汽车噪声、鸟鸣声、风噪声等。

cgisky1980 commented 1 year ago

说实话还是用硬件的靠谱

cgisky1980 commented 1 year ago

https://github.com/PaddlePaddle/FastDeploy/tree/develop/examples/audio/silero-vad/cpp
飞桨的FastDeploy 把 silero-vad 搞进去了