Open JYS997760473 opened 4 hours ago
你好,我们发现在使用自己的数据集时候训练,同样的模型配置,同样的8卡,在A10上训练loss能正常下降,但是在A100,A800机器上训练loss就完全不下降,一直震荡,请问您这边有遇到过这种情况吗?推测这是什么原因呢?
op是在哪台机器上编译的?可以尝试一下在目标机器重新编译一下.
感谢回复,op我还在每次训练前都特意编译一次然后再跑训练,请问每次都是需要删除上次训练编译的.so等然后再编译吗?或者说还有没有其他可能的原因呢
我把编译好的东西删掉再编译正常了 感谢感谢
你好,我们发现在使用自己的数据集时候训练,同样的模型配置,同样的8卡,在A10上训练loss能正常下降,但是在A100,A800机器上训练loss就完全不下降,一直震荡,请问您这边有遇到过这种情况吗?推测这是什么原因呢?