modelscope / 3D-Speaker

A Repository for Single- and Multi-modal Speaker Verification, Speaker Recognition and Speaker Diarization

Apache License 2.0

1.02k stars 89 forks source link

speaker-diarization进行说话人识别的时候，一小时的音频最后十分钟缺失，text里面最大时间戳是50分钟左右 #84

Closed xztzmr closed 4 months ago

xztzmr commented 4 months ago

from modelscope.pipelines import pipeline sd_pipeline = pipeline( task='speaker-diarization', model='damo/speech_campplus_speaker-diarization_common', model_revision='v1.0.0' )

请问是音频太长不支持还是什么原因？

wanghuii1 commented 4 months ago

支持任意长度的音频，这种情况出现可能的原因是，方法中使用了https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch/summary VAD模型，来检测有效语音片段，然后对有效语音片段进行识别，如果有缺失现象可能是VAD模型错误识别该部分没有有效语音。可以单独调用VAD模型验证一下

xztzmr commented 4 months ago

好的多谢