关于训练阶段的疑问

OpenGVLab / all-seeing

[ICLR 2024 & ECCV 2024] The All-Seeing Projects: Towards Panoptic Visual Recognition&Understanding and General Relation Comprehension of the Open World"

https://huggingface.co/spaces/OpenGVLab/all-seeing

448 stars 14 forks source link

关于训练阶段的疑问 #12

Closed tayton42 closed 5 months ago

tayton42 commented 6 months ago

您好！感谢您的工作！我看到两个阶段其实数据重合度很高，为什么不取消第一个阶段直接训练第二个阶段呢，是为了让模型更拟合通用理解能力的数据吗

Weiyun1025 commented 6 months ago

第一阶段的训练是为了让模型学会理解图像的整体信息，第二阶段的训练是为了让模型学会理解图像的局部信息。

如果取消第一个阶段的话，模型在图像benchmark上的性能会有明显的下降（参考我们更新的arxiv论文第二版中的附录部分，我们补充了关于训练阶段的ablation study）