Coobiw / MPP-LLaVA

Personal Project: MPP-Qwen14B & MPP-Qwen-Next(Multimodal Pipeline Parallel based on Qwen-LM). Support [video/image/multi-image] {sft/conversations}. Don't let the poverty limit your imagination! Train your own 8B/14B LLaVA-training-like MLLM on RTX3090/4090 24GB.
349 stars 19 forks source link

请教下为什么选用 qwen LLM 有和其他 baichuan2,chatglm3 做过比较么 #8

Closed valencebond closed 5 months ago

Coobiw commented 8 months ago

并没有仔细比较过,当时用Qwen-7B-Chat只是因为他做过alignment,主观感觉对话能力比较强,加上我对Qwen更熟悉

valencebond commented 8 months ago

我之前发现用 baichuan2-7B chat,经过多模态 pretraining 阶段 对齐之后,LLM 就没有 instruction following 能力了,不知道 QWen 会不会有这个问题。Vicuna1.5 是没有这个问题的。

Coobiw commented 8 months ago

我不是特别确定你说的多模态pretraining是否是instruction tuning,如果是类似minigpt4、llava等模型的第一阶段对齐,那其实训练的时候是没有instruction的,所以会有问题。

如果你说的是这个项目的话,那就是instruction tuning了,我刚才尝试了一下,有些样例是会有这个问题(很容易第一条直接生成描述性的话),尤其是你如果在第一轮对话就给一条非描述性的指令(如果你第一轮让模型描述图片里的内容,后续再进行其他对话就会好很多,但我认为这其实是frozen LLM的功劳)