modelscope / 3D-Speaker

A Repository for Single- and Multi-modal Speaker Verification, Speaker Recognition and Speaker Diarization
Apache License 2.0
1.02k stars 89 forks source link

about cam #75

Closed JINzezhong7 closed 5 months ago

JINzezhong7 commented 5 months ago

您好,我看了cam的论文,有两个疑问,请问speed perturb对cam性能的提升大吗,您试过不加speed perturb的最终在vox1上的结果吗。第二个问题,关于cnceleb data 您说将cncelbe短音频合并保证音频长度不少于6s, 这是在准备数据的时候就已经完成了吗。期待您的回复

wanghuii1 commented 5 months ago
  1. 影响较大,文中没有展示消融试验结果,具体你可以参考其他论文https://arxiv.org/pdf/2211.00815.pdf,或者试试将egs/cnceleb/sv-cam++/conf/cam++.yaml中speed_pertub参数置为false训练。
  2. 是的,但是这个对训练结果影响不大。
JINzezhong7 commented 5 months ago

我试了一下 不加speed perturb的结果是0.87. 你们可以补充哈