部署qwen2-vl-struct后，选择VLLM引擎，无法正确识别大于5M的物品

xorbitsai / inference

Replace OpenAI GPT with another LLM in your app by changing a single line of code. Xinference gives you the freedom to use any LLM you need. With Xinference, you're empowered to run inference with any open-source language models, speech recognition models, and multimodal models, whether in the cloud, on-premises, or even on your laptop.

https://inference.readthedocs.io

Apache License 2.0

5.14k stars 418 forks source link

部署qwen2-vl-struct后，选择VLLM引擎，无法正确识别大于5M的物品 #2465

Open Erincrying opened 1 day ago

Erincrying commented 1 day ago

System Info / 系統信息

python 3.10 torch 2.4.0 transformer 4.45.2

Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece？

[ ] docker / docker
[X] pip install / 通过 pip install 安装
[ ] installation from source / 从源码安装

Version info / 版本信息

xinference v15.4.0

The command used to start Xinference / 用以启动 xinference 的命令

网页启动qwen2-vl-struct，vllm，pytorch，2，none，auto，1

Reproduction / 复现过程

1.dify中添加一个简单识别图片的工作流，提示词是形容图片中的物品 2.小于5M的图片可以正确识别 3.大于5M的图片，已读乱回

Expected behavior / 期待表现

正确识别大于5M的图片

cyhasuka commented 14 hours ago

我无法复现你的问题，测试上传了一张12MB的图片，2B的模型可以正常输出内容。效果肯定不如大参数(如7B)的好，但结果基本正确。

Erincrying commented 14 hours ago

这张图片不知道你是否能下载下来进行复现 https://source.9999jt.com/common/2024/10/17/132637/172914279710 我在这张图片的基础上重新截图可以正确识别，但是直接用这一张不行。另外想问一下你的qwen2-struct，选择VLLM引擎，你们占用的gpu显存大概是多少

Erincrying commented 13 hours ago

我无法复现你的问题，测试上传了一张12MB的图片，2B的模型可以正常输出内容。效果肯定不如大参数(如7B)的好，但结果基本正确。

回复如上

cyhasuka commented 13 hours ago

这张图片不知道你是否能下载下来进行复现 https://source.9999jt.com/common/2024/10/17/132637/172914279710 我在这张图片的基础上重新截图可以正确识别，但是直接用这一张不行。另外想问一下你的qwen2-struct，选择VLLM引擎，你们占用的gpu显存大概是多少

我将网页中的图片保存为JPG格式，可以成功推理。可能需要注意一下图片格式问题。
占用大约17GB，确实有点大

Erincrying commented 13 hours ago

这张图片不知道你是否能下载下来进行复现 https://source.9999jt.com/common/2024/10/17/132637/172914279710 我在这张图片的基础上重新截图可以正确识别，但是直接用这一张不行。另外想问一下你的qwen2-struct，选择VLLM引擎，你们占用的gpu显存大概是多少

我将网页中的图片保存为JPG格式，可以成功推理。可能需要注意一下图片格式问题。

占用大约17GB，确实有点大

我更换格式仍然不行，有可能是模型的问题吗

cyhasuka commented 13 hours ago

这张图片不知道你是否能下载下来进行复现 https://source.9999jt.com/common/2024/10/17/132637/172914279710 我在这张图片的基础上重新截图可以正确识别，但是直接用这一张不行。另外想问一下你的qwen2-struct，选择VLLM引擎，你们占用的gpu显存大概是多少

我将网页中的图片保存为JPG格式，可以成功推理。可能需要注意一下图片格式问题。

占用大约17GB，确实有点大我更换格式仍然不行，有可能是模型的问题吗

理论上应该与模型无关。

Erincrying commented 13 hours ago

2，

另外想问一下这个2B的模型就占用这么大吗，这个原因是什么呀，因为我用qwen的transformer的模型占用显存不超过10g，基于vllm占用比较大的原因是什么呢

Erincrying commented 13 hours ago

这张图片不知道你是否能下载下来进行复现 https://source.9999jt.com/common/2024/10/17/132637/172914279710 我在这张图片的基础上重新截图可以正确识别，但是直接用这一张不行。另外想问一下你的qwen2-struct，选择VLLM引擎，你们占用的gpu显存大概是多少

我将网页中的图片保存为JPG格式，可以成功推理。可能需要注意一下图片格式问题。

占用大约17GB，确实有点大我更换格式仍然不行，有可能是模型的问题吗

理论上应该与模型无关。

我的这张图像使用vllm的qwen2-vl-struct不能进行推理，但是使用transformer的qwen2-vl-struct可以正常推理

cyhasuka commented 12 hours ago

2，

另外想问一下这个2B的模型就占用这么大吗，这个原因是什么呀，因为我用qwen的transformer的模型占用显存不超过10g，基于vllm占用比较大的原因是什么呢

这个我感觉是vLLM的KV缓存问题，而且vLLM还有个推理后占用的缓存不会自动清除的问题，这些感觉可能需要自己搞一下，我还在看源码