Open liuheng0111 opened 4 months ago
hi,如果直接全量放开可能会影响本身vit的能力,所以我们使用了layer wise lr decay让vit的浅层改动较小,深层adapt到新的任务上,这部分code在整理中,近期会开源
hi,如果直接全量放开可能会影响本身vit的能力,所以我们使用了layer wise lr decay让vit的浅层改动较小,深层adapt到新的任务上,这部分code在整理中,近期会开源
可以详细的说明一下layer wise lr decay的实现逻辑吗?或者提供一段代码?
@LightDXY pretrain阶段采用了多少训练数据,laion400M和CC3M全部都用了吗?看paper里说的训练了2个epoch,这么庞大的数据训练需要很多卡和很长时间吧?
hi,如果直接全量放开可能会影响本身vit的能力,所以我们使用了layer wise lr decay让vit的浅层改动较小,深层adapt到新的任务上,这部分code在整理中,近期会开源
大概什么时候会开源?
@LightDXY 大概什么时候会开源?
模拟InternLM-XComposer2三阶段训练,在第一个预训练使用caption数据放开vision encoder、mlp_2x、plora的参数训练,训练多步后测试模型发现模型完全没有caotion能力,而且loss也比单独放开mlp_2x大很多,消融发现是vision encoder放开后提取图像信息能力变差了很多,请问我试验配置的有问题吗?如果放开vision encoder应该如何训练?另外有没有书生多模态大语言模型的交流群呢?