Coobiw / MPP-LLaVA

Personal Project: MPP-Qwen14B & MPP-Qwen-Next(Multimodal Pipeline Parallel based on Qwen-LM). Support [video/image/multi-image] {sft/conversations}. Don't let the poverty limit your imagination! Train your own 8B/14B LLaVA-training-like MLLM on RTX3090/4090 24GB.
349 stars 19 forks source link

关于知乎中提到的多模态接入方案问题 #17

Closed cszhengyh closed 4 months ago

cszhengyh commented 4 months ago

我理解是在推理时用到特有的接入方案,但是我在项目演示截图,在我们的指令中并没有看到类似<Img><ImageHere></Img>的输入嵌入?这是为什么呢?

cszhengyh commented 4 months ago

我看我们的训练数据中,都是将<Img><ImageHere></Img>放在最前面的,所以我猜测我们训练时没有用到这个方案

cszhengyh commented 4 months ago

我搞错了 那个好像是多图才会用到...

Coobiw commented 4 months ago

无论训练还是推理都是有用到<Img><ImageHere></Img>

推理的在cli_demowebui_demo两个py文件里,直接在文本端做处理,加上image相关的文本以及构成对话模板,都有相应的代码,可以check一下

训练则是preprocess func会把<ImageHere>替换成num_queries个qformer处理后的image token。

详情可以看这些代码部分:

Additionally,这个和多图没关系,有图像输入就需要

cszhengyh commented 4 months ago

无论训练还是推理都是有用到<Img><ImageHere></Img>

推理的在cli_demowebui_demo两个py文件里,直接在文本端做处理,加上image相关的文本以及构成对话模板,都有相应的代码,可以check一下

训练则是preprocess func会把<ImageHere>替换成num_queries个qformer处理后的image token。

详情可以看这些代码部分:

image

Additionally,这个和多图没关系,有图像输入就需要

我理解这种接入方案,<Img><ImageHere></Img>应该不局限于置于文本最前方,而是还会插在中间,这在训练数据中没有体现这样的数据。在推理的时候,我们用的也是绝对前缀?

Coobiw commented 4 months ago

嗯 实现上是完全不局限的 现在代码实现为了方便都放在最前面 你可以去修改代码 插入在任意位置都是可以的

Coobiw commented 4 months ago

solved. I'll close this issue.