modelscope / 3D-Speaker

A Repository for Single- and Multi-modal Speaker Verification, Speaker Recognition and Speaker Diarization
Apache License 2.0
1.02k stars 89 forks source link

speaker-diarization进行说话人识别的时候,一小时的音频最后十分钟缺失,text里面最大时间戳是50分钟左右 #84

Closed xztzmr closed 4 months ago

xztzmr commented 4 months ago

from modelscope.pipelines import pipeline sd_pipeline = pipeline( task='speaker-diarization', model='damo/speech_campplus_speaker-diarization_common', model_revision='v1.0.0' )

请问是音频太长不支持还是什么原因?

wanghuii1 commented 4 months ago

支持任意长度的音频,这种情况出现可能的原因是,方法中使用了https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch/summary VAD模型,来检测有效语音片段,然后对有效语音片段进行识别,如果有缺失现象可能是VAD模型错误识别该部分没有有效语音。 可以单独调用VAD模型验证一下

xztzmr commented 4 months ago

好的多谢