预训练放开vision encoder，效果很差

InternLM / InternLM-XComposer

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

2.06k stars 128 forks source link

预训练放开vision encoder，效果很差 #195

Open liuheng0111 opened 4 months ago

liuheng0111 commented 4 months ago

模拟InternLM-XComposer2三阶段训练，在第一个预训练使用caption数据放开vision encoder、mlp_2x、plora的参数训练，训练多步后测试模型发现模型完全没有caotion能力，而且loss也比单独放开mlp_2x大很多，消融发现是vision encoder放开后提取图像信息能力变差了很多，请问我试验配置的有问题吗？如果放开vision encoder应该如何训练？另外有没有书生多模态大语言模型的交流群呢？

LightDXY commented 4 months ago

hi，如果直接全量放开可能会影响本身vit的能力，所以我们使用了layer wise lr decay让vit的浅层改动较小，深层adapt到新的任务上，这部分code在整理中，近期会开源

liuheng0111 commented 4 months ago

hi，如果直接全量放开可能会影响本身vit的能力，所以我们使用了layer wise lr decay让vit的浅层改动较小，深层adapt到新的任务上，这部分code在整理中，近期会开源

可以详细的说明一下layer wise lr decay的实现逻辑吗？或者提供一段代码？

liuheng0111 commented 3 months ago

@LightDXY pretrain阶段采用了多少训练数据，laion400M和CC3M全部都用了吗？看paper里说的训练了2个epoch，这么庞大的数据训练需要很多卡和很长时间吧？

liuheng0111 commented 2 months ago

hi，如果直接全量放开可能会影响本身vit的能力，所以我们使用了layer wise lr decay让vit的浅层改动较小，深层adapt到新的任务上，这部分code在整理中，近期会开源

大概什么时候会开源？

hekaijie123 commented 3 weeks ago

@LightDXY 大概什么时候会开源？