InternLM / InternLM-XComposer

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
2.06k stars 128 forks source link

InternLM-XComposer2-VL -> InternLM-XComposer2 的训练脚本 #220

Open guikunchen opened 3 months ago

guikunchen commented 3 months ago

请问从InternLM-XComposer2-VL得到InternLM-XComposer2的训练应该怎么做呢? 是采用https://github.com/InternLM/InternLM-XComposer/blob/main/finetune 这里的 code吗? 如果是的话,

  1. 指定 pretrained path 为 VL 版本的 path。 2.1. image size 设置成 224 ,训练代码报错,提示模型 dimension 不匹配。 2.2. image size 设置成 490 ,训练速度非常慢。(数据同样是图文创作数据,一句话里有多张图像) 不太确定为什么两个版本要特地区分 image size,以及 VL 模型做 instruction fine-tune 的代码。感谢🙏
alexhe101 commented 3 months ago

图像size越大,占用的token越多,同理问答能力会更强,所以vl版本专注于问答能力,需要大size图像;非vl版估计聚焦于长文本创作,因此降低了图像size,减少token占用。 以上是个人猜测