junjie18 / CMT

[ICCV 2023] Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
Other
308 stars 34 forks source link

边训练边测试 #60

Open SISTMrL opened 11 months ago

SISTMrL commented 11 months ago

你好,如何开启边训练边测试呢,我刚才看grad norm出现了nan,然后loss从14变成了19,开始变大了,感觉是训练出现了问题。能否说下如何边训练边测试呢,方便观察训练是不是正常的

我看论文里写的batch size是16, 我用的四张卡,所以每张卡设置的4,用的4卡a40, cmt_voxel0100_r50_800x320_cbgs.py这个配置文件

我现在正在单独测试存下来的checkpoints

SISTMrL commented 11 months ago

你好,我测了第九个epoch的模型,结果如下,感觉map nds低了,而且 traffic cone和barrier出现了nan image 我什么参数都没改过,只是torch的版本和sp conv的版本跟你不一样,请问下这个问题出在哪里呢

junjie18 commented 11 months ago

https://github.com/junjie18/CMT/issues/48

SISTMrL commented 11 months ago

48

你好,根据你提供的解决方案,我现在第17个epoch的map为62.18,但是整个训练周期只有20个epoch,应该是到不了你repo里写的67.9,还有什么其他需要调整的参数吗?下面是我的配置参数

配置文件:cmt_voxel0100_r50_800x320_cbgs.py bs: samples_per_gpu=4, 4卡A40 lr:0.00014改成0.00007 target_ratio: (6, 0.0001)换成(3,0.0001) optimizer_config:加了个key-value,loss_scale='dynamic'

其他的参数都是和repo里保持一致

另外作者可以提供所有配置文件训练的log吗,这样可以方便复现者进行比对,谢谢!诚盼回复

junjie18 commented 11 months ago

@SISTMrL https://github.com/junjie18/CMT/issues/5