关于ResNet提取embedding时，文件超大 - Githubissues

wenet-e2e / wespeaker

Research and Production Oriented Speaker Verification, Recognition and Diarization Toolkit

Apache License 2.0

630 stars 109 forks source link

关于ResNet提取embedding时，文件超大 #259

Closed 88aggressive closed 7 months ago

88aggressive commented 7 months ago

b576e955becebb02b991fabe248992b 如图所示，使用vox1dev训练，在提embedding时，每个xvector_*.ark文件提取了超40G仍然没有提取完，使用shard格式和raw格式仍是这样，请问这样是否正常，不正常的话会是哪里出了问题呢

cdliang11 commented 7 months ago

看下log, 提取的utt总数多少

88aggressive commented 7 months ago

就是vox1-test和vox1-dev对应的语音条数。

cdliang11 commented 7 months ago

就是vox1-test和vox1-dev对应的语音条数。

那不正常，这有点大了。vox2dev是1.6G , vox1应该小于这个数。你统计下vox1/xvector.scp 和 vox1train/xvector.scp 的行数, wc -l vox1/xvector_*.scp wc -l vox1_train/xvector_*.scp

campplus的结果正常吗，这两个大小应该是一样的【我看你实验路径上的命名，输出的embedding维度都是512】

88aggressive commented 7 months ago

之前截图那个使用shard格式提的，提出来太大了有问题我就给删了，改成了raw格式，提到现在还是有问题, 就现在的提取进度来看，vox1已经1430052行，vox1_train已经4398744 行。 vox1是 158390应该才是正常的。campplus这个还没训完，还没提。resnet的embed_dim: 256，cam是512。文件名是因为我只改了exp_dir路径模型的名称

cdliang11 commented 7 months ago

之前截图那个使用shard格式提的，提出来太大了有问题我就给删了，改成了raw格式，提到现在还是有问题, 就现在的提取进度来看，vox1已经1430052行，vox1_train已经4398744 行。 vox1是 158390应该才是正常的。campplus这个还没训完，还没提。resnet的embed_dim: 256，cam是512。文件名是因为我只改了exp_dir路径模型的名称

检查下raw.list中数据的总量吧

88aggressive commented 7 months ago

vox1_train是148642，test是4874。列表应该是没问题的

cdliang11 commented 7 months ago

vox1_train是148642，test是4874。列表应该是没问题的

ok, 可以顺着代码调用路径进行排查，先看下log/split_** 这里的条数是否正常

88aggressive commented 7 months ago

找到问题了，是我之前git clone的wespeaker版本里面extract.py没有repeat_dataset=False参数，导致一致重复提取。

cdliang11 commented 7 months ago

https://github.com/wenet-e2e/wespeaker/pull/185