OpenGVLab / InternVL

[CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型
https://internvl.readthedocs.io/en/latest/
MIT License
5.65k stars 440 forks source link

怎么批量识别图片的内容呢 #264

Closed 15151833668 closed 2 months ago

15151833668 commented 3 months ago

image 我的image标签也给了2个 worker 报错 image 请问怎么解决

SonGohan757 commented 3 months ago

啊?直接用base64作为图像信息token输入???不用VFM? 这总token得有多长啊

njzfw1024 commented 3 months ago

啊?直接用base64作为图像信息token输入???不用VFM? 这总token得有多长啊

你好,可以给一个VFM的使用样例嘛