原文中的训练配置

xiuqhou / Salience-DETR

[CVPR 2024] Official implementation of the paper "Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement"

https://arxiv.org/abs/2403.16131

Apache License 2.0

105 stars 7 forks source link

Closed XiaodongGuan closed 1 month ago

XiaodongGuan commented 1 month ago

您好，请问您原本训练这些使用不同backbone的模型时分别用了怎样的硬件配置？另外请问batch size 是怎样设置的？是否用了混合精度？我使用V100（32GB）训练FocalNet时设置单卡batch size=2，但只能使用fp16来避免OOM，请问这是否正常？

我在自己的数据上做微调，想试试沿用最佳的学习率，向您提问是为了根据batch size对lr进行调整。

xiuqhou commented 1 month ago

我们公开权重的训练配置是两张A800（80G），每个卡的barch_size＝5（总batch_size＝10），学习率是1e-4，全部使用fp16训练，每个backbone都是这个配置。

32G显存确实不太够训练fp32精度的Focal-L的模型，是正常的。

如果您要微调自己的数据集，可以根据batch_size等比缩放学习率（我们的基准是lr=1e-4，batch_size=10；也可以参考Deformable DETR的基准：lr＝2e-4，batch_size＝16）

XiaodongGuan commented 1 month ago

谢谢！