FunAudioLLM / SenseVoice

Multilingual Voice Understanding Model
https://funaudiollm.github.io/
Other
3.49k stars 317 forks source link

在使用VAD时,采样率对推理结果影响很大 #152

Open bigeyefish opened 4 weeks ago

bigeyefish commented 4 weeks ago

音频采样率:44100 不使用 VAD:识别效果很准确 使用VAD:识别效果很差

音频采样率:22050 不使用 VAD:识别效果很准确 使用VAD:识别效果很准确

不确定是否和funasr有关,启动方式: m = AutoModel( model=model_dir, trust_remote_code=True, remote_code='./model.py', vad_model=vad_dir, vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", disable_update=True, ) 文件'./model.py' 中 inference 方法中 kwargs.get("fs") 是正确的值