请教下为什么选用 qwen LLM 有和其他 baichuan2，chatglm3 做过比较么

Coobiw / MPP-LLaVA

Personal Project: MPP-Qwen14B & MPP-Qwen-Next(Multimodal Pipeline Parallel based on Qwen-LM). Support [video/image/multi-image] {sft/conversations}. Don't let the poverty limit your imagination! Train your own 8B/14B LLaVA-training-like MLLM on RTX3090/4090 24GB.

349 stars 19 forks source link

我不是特别确定你说的多模态pretraining是否是instruction tuning，如果是类似minigpt4、llava等模型的第一阶段对齐，那其实训练的时候是没有instruction的，所以会有问题。

如果你说的是这个项目的话，那就是instruction tuning了，我刚才尝试了一下，有些样例是会有这个问题（很容易第一条直接生成描述性的话），尤其是你如果在第一轮对话就给一条非描述性的指令（如果你第一轮让模型描述图片里的内容，后续再进行其他对话就会好很多，但我认为这其实是frozen LLM的功劳）

Coobiw / MPP-LLaVA

请教下为什么选用 qwen LLM 有和其他 baichuan2，chatglm3 做过比较么 #8