modelscope / 3D-Speaker

A Repository for Single- and Multi-modal Speaker Verification, Speaker Recognition and Speaker Diarization
Apache License 2.0
1.18k stars 101 forks source link

speech_eres2net_sv_zh-cn_16k-common预训练模型相关问题 #32

Closed yangsuxia closed 1 year ago

yangsuxia commented 1 year ago

1、提出使用200k的说话人进行训练,但是3D-Speaker中只有10000个说话人,请问是还使用了其他数据吗? 2、使用这个模型对CNCeleb的测试集和注册集分别提取embedding,然后再使用项目中的compute_score_metrics.py计算EER,我这边结果是4.08,这样对吗?比给出的结果2.8高出不少呢

yfchenlucky commented 1 year ago
  1. 200k-common使用的不是3D-Speaker数据,是内部数据集,暂不开源。
  2. 测试结果有误,你可以check代码并添加https://modelscope.cn/models/damo/speech_eres2net_sv_zh-cn_16k-common/summary 里面的钉钉群询问,群内有其他成员已经验证过测试性能。