THUDM / CogVLM2

GPT4V-level open-source multi-modal model based on Llama3-8B
Apache License 2.0
1.42k stars 77 forks source link

【question】 您好,如果将pdf转换成图片应该怎么让模型同时阅读多种图片并回答问题 #76

Closed whysirier closed 3 weeks ago

whysirier commented 4 weeks ago

System Info / 系統信息

pdf结合langchain可能效果差点,但直接阅读图片,效果不错。demo中每次只能提交一张图片和一个question,请问怎么提交多张图片和一个question这种形式。

Who can help? / 谁可以帮助到您?

No response

Information / 问题信息

Reproduction / 复现过程

V100 32GB * 2

Expected behavior / 期待表现

期待回答

whysirier commented 4 weeks ago

是多张图片,说错了

whysirier commented 4 weeks ago

感觉这个单图识别很强啊,比Qwen强了不少,用得也很方便

zRzRzRzRzRzRzR commented 3 weeks ago

可以查看 #84 #83 ,不支持多个图片