swc-17 / SparseDrive

SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation
MIT License
308 stars 31 forks source link

在自己的数据集上A10,A100, A800的表现完全不一样 #47

Open JYS997760473 opened 4 hours ago

JYS997760473 commented 4 hours ago

你好,我们发现在使用自己的数据集时候训练,同样的模型配置,同样的8卡,在A10上训练loss能正常下降,但是在A100,A800机器上训练loss就完全不下降,一直震荡,请问您这边有遇到过这种情况吗?推测这是什么原因呢?

swc-17 commented 4 hours ago

op是在哪台机器上编译的?可以尝试一下在目标机器重新编译一下.

JYS997760473 commented 4 hours ago

op是在哪台机器上编译的?可以尝试一下在目标机器重新编译一下.

感谢回复,op我还在每次训练前都特意编译一次然后再跑训练,请问每次都是需要删除上次训练编译的.so等然后再编译吗?或者说还有没有其他可能的原因呢

JYS997760473 commented 1 hour ago

op是在哪台机器上编译的?可以尝试一下在目标机器重新编译一下.

我把编译好的东西删掉再编译正常了 感谢感谢