modelscope / 3D-Speaker

A Repository for Single- and Multi-modal Speaker Verification, Speaker Recognition and Speaker Diarization
Apache License 2.0
1.02k stars 89 forks source link

使用speaker diarization结合视频的DER结果效果比单音频的还要差,请问这可以微调嘛? #90

Closed Coconut059 closed 4 months ago

Coconut059 commented 4 months ago

在MISP2021数据集上使用speaker diarization,使用cam++模型,audio_only:MISS=23;FA=2.56;SER=9;DER=35;;audio_visual:MISS=23,FA=2.56;SER=15;DER=40; 在eval数据上DER差距更大分别是36%和48%,请问clustering部分可以微调嘛

wanghuii1 commented 4 months ago

可以调,但是当前pipeline无法处理overlap的问题,而MISP有大量的overlap,如果想在MISP数据集上做出好的结果,建议follow历届MISP的report,使用多模态的TASVD方案

Coconut059 commented 4 months ago

可以调,但是当前pipeline无法处理overlap的问题,而MISP有大量的overlap,如果想在MISP数据集上做出好的结果,建议follow历届MISP的report,使用多模态的TASVD方案 谢谢!想问一下该代码效果比较好的数据集有哪些?同时如果可以调整audio和visual的联合聚类的话要怎么调呢

wanghuii1 commented 4 months ago

我们后续会开源一个overlap较少的音视频数据集。调参可以试着调整下conf/diar_video.yaml中的vision_cluster.fix_cos_thr