您好，CoGVLM2无法读取多张图片，请问有什么方法能够解决该问题，

THUDM / CogVLM2

GPT4V-level open-source multi-modal model based on Llama3-8B

Apache License 2.0

1.42k stars 77 forks source link

Closed whysirier closed 1 week ago

whysirier commented 2 weeks ago

只能通过多轮对话结合历史回答来解决？

No response

不是bug

期待回答

zRzRzRzRzRzRzR commented 2 weeks ago

模型结构导致模型只能传入一张图片，能做的只能把多个图片拼成一个图片传入。

whysirier commented 2 weeks ago

模型结构导致模型只能传入一张图片，能做的只能把多个图片拼成一个图片传入。

会不会超过token限制，传入image会有分辨率限制吧？我是一张张的将内容识别出来，再合并

zRzRzRzRzRzRzR commented 2 weeks ago

传入image是1344*1344，一个完整对话只能传入一张，这个图像占用的token固定为2303