THUDM / CogVLM2

GPT4V-level open-source multi-modal model based on Llama3-8B
Apache License 2.0
1.42k stars 77 forks source link

您好,CoGVLM2无法读取多张图片,请问有什么方法能够解决该问题, #99

Closed whysirier closed 1 week ago

whysirier commented 2 weeks ago

System Info / 系統信息

只能通过多轮对话结合历史回答来解决?

Who can help? / 谁可以帮助到您?

No response

Information / 问题信息

Reproduction / 复现过程

不是bug

Expected behavior / 期待表现

期待回答

zRzRzRzRzRzRzR commented 2 weeks ago

模型结构导致模型只能传入一张图片,能做的只能把多个图片拼成一个图片传入。

whysirier commented 2 weeks ago

模型结构导致模型只能传入一张图片,能做的只能把多个图片拼成一个图片传入。

会不会超过token限制,传入image会有分辨率限制吧?我是一张张的将内容识别出来,再合并

zRzRzRzRzRzRzR commented 2 weeks ago

传入image是1344*1344,一个完整对话只能传入一张,这个图像占用的token固定为2303