modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.
https://www.funasr.com
Other
6.47k stars 688 forks source link

pytorch 版本和 中文离线文件转写服务(CPU版本)版本识别录音文件 差别巨大 #1722

Closed zengcmail closed 4 months ago

zengcmail commented 5 months ago

我们想使用 FunASR 做呼叫中心的 录音质检

发现同一段录音,使用: funasr ++model=paraformer-zh ++vad_model="fsmn-vad" ++punc_model="ct-punc" ++input=测试录音文件.wav ---》 正确率还不错,基本都正确

但是,使用:中文离线文件转写服务(CPU版本)版本的 python3 funasr_wss_client.py --host "127.0.0.1" --port 10095 --mode offline --audio_in "测试录音文件.wav" ---》 测试效果非常差,完全不正确

请问,这 2 者出现差异,是因为我的配置问题,还是什么问题,如何解决,非常感谢

lixikun commented 5 months ago

先看下你的采样率是否是16K的,采样率一样基本不会有太大的差别

FD-Liekkas commented 5 months ago

我也遇到过类似的,后来发现是文件采样率和声道数量没对齐,需要是16K并且单声道的音频,你可以转换完再试试

lyblsgo commented 4 months ago

Please confirm your audio format; if the issue persists, you can reopen the issue.