xiuqhou / Salience-DETR

[CVPR 2024] Official implementation of the paper "Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement"
https://arxiv.org/abs/2403.16131
Apache License 2.0
105 stars 7 forks source link

原文中的训练配置 #18

Closed XiaodongGuan closed 1 month ago

XiaodongGuan commented 1 month ago

您好,请问您原本训练这些使用不同backbone的模型时分别用了怎样的硬件配置? 另外请问batch size 是怎样设置的? 是否用了混合精度? 我使用V100(32GB)训练FocalNet时设置单卡batch size=2,但只能使用fp16来避免OOM,请问这是否正常?

我在自己的数据上做微调,想试试沿用最佳的学习率,向您提问是为了根据batch size对lr进行调整。

xiuqhou commented 1 month ago

我们公开权重的训练配置是两张A800(80G),每个卡的barch_size=5(总batch_size=10),学习率是1e-4,全部使用fp16训练,每个backbone都是这个配置。

32G显存确实不太够训练fp32精度的Focal-L的模型,是正常的。

如果您要微调自己的数据集,可以根据batch_size等比缩放学习率(我们的基准是lr=1e-4,batch_size=10;也可以参考Deformable DETR的基准:lr=2e-4,batch_size=16)

XiaodongGuan commented 1 month ago

谢谢!