wenet-e2e / wespeaker

Research and Production Oriented Speaker Verification, Recognition and Diarization Toolkit
Apache License 2.0
630 stars 109 forks source link

关于ResNet提取embedding时,文件超大 #259

Closed 88aggressive closed 7 months ago

88aggressive commented 7 months ago

b576e955becebb02b991fabe248992b 如图所示,使用vox1dev训练,在提embedding时,每个xvector_*.ark文件提取了超40G仍然没有提取完,使用shard格式和raw格式仍是这样,请问这样是否正常,不正常的话会是哪里出了问题呢

cdliang11 commented 7 months ago

看下log, 提取的utt总数多少

88aggressive commented 7 months ago

就是vox1-test和vox1-dev对应的语音条数。

cdliang11 commented 7 months ago

就是vox1-test和vox1-dev对应的语音条数。

那不正常,这有点大了。vox2dev是1.6G , vox1应该小于这个数。你统计下vox1/xvector.scp 和 vox1train/xvector.scp 的行数, wc -l vox1/xvector_*.scp wc -l vox1_train/xvector_*.scp

campplus的结果正常吗,这两个大小应该是一样的【我看你实验路径上的命名,输出的embedding维度都是512】

88aggressive commented 7 months ago

之前截图那个使用shard格式提的,提出来太大了有问题我就给删了,改成了raw格式,提到现在还是有问题, 就现在的提取进度来看,vox1已经1430052行,vox1_train已经4398744 行。 vox1是 158390应该才是正常的。campplus这个还没训完,还没提。resnet的embed_dim: 256,cam是512。文件名是因为我只改了exp_dir路径模型的名称

cdliang11 commented 7 months ago

之前截图那个使用shard格式提的,提出来太大了有问题我就给删了,改成了raw格式,提到现在还是有问题, 就现在的提取进度来看,vox1已经1430052行,vox1_train已经4398744 行。 vox1是 158390应该才是正常的。campplus这个还没训完,还没提。resnet的embed_dim: 256,cam是512。文件名是因为我只改了exp_dir路径模型的名称

检查下raw.list中数据的总量吧

88aggressive commented 7 months ago

vox1_train是148642,test是4874。列表应该是没问题的

cdliang11 commented 7 months ago

vox1_train是148642,test是4874。列表应该是没问题的

ok, 可以顺着代码调用路径进行排查,先看下log/split_** 这里的条数是否正常

88aggressive commented 7 months ago

找到问题了,是我之前git clone的wespeaker版本里面extract.py没有repeat_dataset=False参数,导致一致重复提取。

cdliang11 commented 7 months ago

https://github.com/wenet-e2e/wespeaker/pull/185