modelscope / 3D-Speaker

A Repository for Single- and Multi-modal Speaker Verification, Speaker Recognition and Speaker Diarization
Apache License 2.0
1.02k stars 89 forks source link

sv-eres2net训练异常 #85

Closed canglangzhishuiz closed 4 months ago

canglangzhishuiz commented 4 months ago

数据集:voxceleb 训练脚本: sv-eres2net 运行bash run.sh后,控制台输出如下,一直没有更新:

截屏2024-03-26 15 57 18

nvitop显示如下,也一直没有更新:

截屏2024-03-26 16 00 43

请问这种情况正常吗?

yfchenlucky commented 4 months ago

看起来不太正常,因为模型训练会输出相关信息,而从日志来看模型并没有开启训练,但是你的GPU利用率却是100%,推测原因可能是有其他程序占用GPU,导致你现在跑的程序无法推进。你可以将GPU上的任务全部清空再从stage 3开始训练。

canglangzhishuiz commented 4 months ago

我的GPU上无其它进程,是不是和显卡有关系,我的训练设备为h800

yfchenlucky commented 4 months ago

H800也可以正常运行吧,你重新启动程序试试呢?你的GPU利用率是100%,还有其他程序在运行?你可以好好检查有无输出日志:3D-Speaker/egs/voxceleb/sv-eres2net/exp/eres2net/train.log。

canglangzhishuiz commented 4 months ago

cat exp/eres2net/train.log

截屏2024-03-26 17 06 48

镜像和程序都尝试重启过,输出都一样。

yfchenlucky commented 4 months ago

可以参考:https://github.com/Lightning-AI/pytorch-lightning/discussions/11865

canglangzhishuiz commented 4 months ago

好的,非常感谢🙏🙏🙏。 成功解决了,运行bash run.sh之前,export NCCL_P2P_DISABLE=1