在自己的数据集上A10，A100， A800的表现完全不一样

swc-17 / SparseDrive

SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation

MIT License

308 stars 31 forks source link

Open JYS997760473 opened 4 hours ago

JYS997760473 commented 4 hours ago

你好，我们发现在使用自己的数据集时候训练，同样的模型配置，同样的8卡，在A10上训练loss能正常下降，但是在A100，A800机器上训练loss就完全不下降，一直震荡，请问您这边有遇到过这种情况吗？推测这是什么原因呢？

swc-17 commented 4 hours ago

op是在哪台机器上编译的?可以尝试一下在目标机器重新编译一下.

JYS997760473 commented 4 hours ago

op是在哪台机器上编译的?可以尝试一下在目标机器重新编译一下.

感谢回复，op我还在每次训练前都特意编译一次然后再跑训练，请问每次都是需要删除上次训练编译的.so等然后再编译吗？或者说还有没有其他可能的原因呢

JYS997760473 commented 1 hour ago

op是在哪台机器上编译的?可以尝试一下在目标机器重新编译一下.

我把编译好的东西删掉再编译正常了感谢感谢