InternLM / InternLM-XComposer

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
2.06k stars 128 forks source link

预训练放开vision encoder,效果很差 #195

Open liuheng0111 opened 4 months ago

liuheng0111 commented 4 months ago

模拟InternLM-XComposer2三阶段训练,在第一个预训练使用caption数据放开vision encoder、mlp_2x、plora的参数训练,训练多步后测试模型发现模型完全没有caotion能力,而且loss也比单独放开mlp_2x大很多,消融发现是vision encoder放开后提取图像信息能力变差了很多,请问我试验配置的有问题吗?如果放开vision encoder应该如何训练?另外有没有书生多模态大语言模型的交流群呢?

LightDXY commented 4 months ago

hi,如果直接全量放开可能会影响本身vit的能力,所以我们使用了layer wise lr decay让vit的浅层改动较小,深层adapt到新的任务上,这部分code在整理中,近期会开源

liuheng0111 commented 4 months ago

hi,如果直接全量放开可能会影响本身vit的能力,所以我们使用了layer wise lr decay让vit的浅层改动较小,深层adapt到新的任务上,这部分code在整理中,近期会开源

可以详细的说明一下layer wise lr decay的实现逻辑吗?或者提供一段代码?

liuheng0111 commented 3 months ago

@LightDXY pretrain阶段采用了多少训练数据,laion400M和CC3M全部都用了吗?看paper里说的训练了2个epoch,这么庞大的数据训练需要很多卡和很长时间吧?

liuheng0111 commented 2 months ago

hi,如果直接全量放开可能会影响本身vit的能力,所以我们使用了layer wise lr decay让vit的浅层改动较小,深层adapt到新的任务上,这部分code在整理中,近期会开源

大概什么时候会开源?

hekaijie123 commented 3 weeks ago

@LightDXY 大概什么时候会开源?