Snowdar / asv-subtools

An Open Source Tools for Speaker Recognition
Apache License 2.0
587 stars 135 forks source link

online训练提示标签越界问题:Assertion `idx_dim >= 0 && idx_dim < index_size && "index out of bounds"` #79

Open songfuture opened 3 months ago

songfuture commented 3 months ago

首先非常感谢这么优秀的开源项目。 使用在线训练脚本subtools/pytorch/lanucher/*_online.py训练时,报出标签越界问题。 经排查产生该问题的原因如下: subtools/pytorch/pipeline/preprocess_wav_egs.sh中调用的subtools/pytorch/pipeline/onestep/get_raw_wav_chunk.py中的get_chunk_egs函数是先对整个dataset生成utt2spk_int文件(dataset.generate("utt2spk_int") ),然后划分trainset, valid集合(trainset, valid = dataset.split(args.valid_num_utts, args.valid_split_type))。当某个说话人仅有1条utt且runEcapaXvector_online.py中limit_utts=1时,说话人可能就被全部划分进valid集合,从而导致train的实际人数减少,但标签最大值仍为整个数据集的最大值。