OpenGVLab / all-seeing

[ICLR 2024 & ECCV 2024] The All-Seeing Projects: Towards Panoptic Visual Recognition&Understanding and General Relation Comprehension of the Open World"
https://huggingface.co/spaces/OpenGVLab/all-seeing
448 stars 14 forks source link

关于训练阶段的疑问 #12

Closed tayton42 closed 5 months ago

tayton42 commented 6 months ago

您好!感谢您的工作!我看到两个阶段其实数据重合度很高,为什么不取消第一个阶段直接训练第二个阶段呢,是为了让模型更拟合通用理解能力的数据吗

Weiyun1025 commented 6 months ago

第一阶段的训练是为了让模型学会理解图像的整体信息,第二阶段的训练是为了让模型学会理解图像的局部信息。

如果取消第一个阶段的话,模型在图像benchmark上的性能会有明显的下降(参考我们更新的arxiv论文第二版中的附录部分,我们补充了关于训练阶段的ablation study)