xiuqhou / Salience-DETR

[CVPR 2024] Official implementation of the paper "Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement"
https://arxiv.org/abs/2403.16131
Apache License 2.0
113 stars 7 forks source link

模型微调 #38

Open Yanlewen opened 1 month ago

Yanlewen commented 1 month ago

Question

您好,请问在模型微调方面,除了对backbone进行冻结某些层进行微调完,还有其他微调方式吗?可以引入Lora等参数高效微调的方法吗?另外可以对transformer层进行什么样的微调吗

补充信息

No response

xiuqhou commented 1 month ago

我了解到的检测模型基本都是微调backbone,其他微调方式您可能得查一查相关论文。之所以微调backbone,是因为检测模型中backbone占了大部分FLOPs,而neck+head计算量和参数量很少,从头训练就足够了。

但DETR模型的大部分FLOPs除了发生在backbone,还发生在Transformer的Encoder部分。也可以考虑把Transformer的Encoder部分也进行微调。LoRA似乎主要针对缩放点积自注意力进行微调,目的是降低显存和对数据量的需求,DETR中只有Decoder层有缩放点积,他的显存占用和计算量不大,我个人觉得如果样本足够的话没必要用LoRA,如果样本量少可以考虑。