xorbitsai / inference

Replace OpenAI GPT with another LLM in your app by changing a single line of code. Xinference gives you the freedom to use any LLM you need. With Xinference, you're empowered to run inference with any open-source language models, speech recognition models, and multimodal models, whether in the cloud, on-premises, or even on your laptop.
https://inference.readthedocs.io
Apache License 2.0
5.14k stars 418 forks source link

部署qwen2-vl-struct后,选择VLLM引擎,无法正确识别大于5M的物品 #2465

Open Erincrying opened 1 day ago

Erincrying commented 1 day ago

System Info / 系統信息

python 3.10 torch 2.4.0 transformer 4.45.2

Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece?

Version info / 版本信息

xinference v15.4.0

The command used to start Xinference / 用以启动 xinference 的命令

网页启动qwen2-vl-struct,vllm,pytorch,2,none,auto,1

Reproduction / 复现过程

1.dify中添加一个简单识别图片的工作流,提示词是形容图片中的物品 2.小于5M的图片可以正确识别 3.大于5M的图片,已读乱回

Expected behavior / 期待表现

正确识别大于5M的图片

cyhasuka commented 14 hours ago

我无法复现你的问题,测试上传了一张12MB的图片,2B的模型可以正常输出内容。效果肯定不如大参数(如7B)的好,但结果基本正确。 image

Erincrying commented 14 hours ago

这张图片不知道你是否能下载下来进行复现 https://source.9999jt.com/common/2024/10/17/132637/172914279710 我在这张图片的基础上重新截图可以正确识别,但是直接用这一张不行。 另外想问一下你的qwen2-struct,选择VLLM引擎,你们占用的gpu显存大概是多少

Erincrying commented 13 hours ago

我无法复现你的问题,测试上传了一张12MB的图片,2B的模型可以正常输出内容。效果肯定不如大参数(如7B)的好,但结果基本正确。 image

回复如上

cyhasuka commented 13 hours ago

这张图片不知道你是否能下载下来进行复现 https://source.9999jt.com/common/2024/10/17/132637/172914279710 我在这张图片的基础上重新截图可以正确识别,但是直接用这一张不行。 另外想问一下你的qwen2-struct,选择VLLM引擎,你们占用的gpu显存大概是多少

  1. 我将网页中的图片保存为JPG格式,可以成功推理。可能需要注意一下图片格式问题。
  2. 占用大约17GB,确实有点大
Erincrying commented 13 hours ago

这张图片不知道你是否能下载下来进行复现 https://source.9999jt.com/common/2024/10/17/132637/172914279710 我在这张图片的基础上重新截图可以正确识别,但是直接用这一张不行。 另外想问一下你的qwen2-struct,选择VLLM引擎,你们占用的gpu显存大概是多少

  1. 我将网页中的图片保存为JPG格式,可以成功推理。可能需要注意一下图片格式问题。
  2. 占用大约17GB,确实有点大

image 我更换格式仍然不行,有可能是模型的问题吗

cyhasuka commented 13 hours ago

这张图片不知道你是否能下载下来进行复现 https://source.9999jt.com/common/2024/10/17/132637/172914279710 我在这张图片的基础上重新截图可以正确识别,但是直接用这一张不行。 另外想问一下你的qwen2-struct,选择VLLM引擎,你们占用的gpu显存大概是多少

  1. 我将网页中的图片保存为JPG格式,可以成功推理。可能需要注意一下图片格式问题。
  2. 占用大约17GB,确实有点大 我更换格式仍然不行,有可能是模型的问题吗

理论上应该与模型无关。

Erincrying commented 13 hours ago

2,

另外想问一下这个2B的模型就占用这么大吗,这个原因是什么呀,因为我用qwen的transformer的模型占用显存不超过10g,基于vllm占用比较大的原因是什么呢

Erincrying commented 13 hours ago

这张图片不知道你是否能下载下来进行复现 https://source.9999jt.com/common/2024/10/17/132637/172914279710 我在这张图片的基础上重新截图可以正确识别,但是直接用这一张不行。 另外想问一下你的qwen2-struct,选择VLLM引擎,你们占用的gpu显存大概是多少

  1. 我将网页中的图片保存为JPG格式,可以成功推理。可能需要注意一下图片格式问题。
  2. 占用大约17GB,确实有点大 我更换格式仍然不行,有可能是模型的问题吗

理论上应该与模型无关。

我的这张图像使用vllm的qwen2-vl-struct不能进行推理,但是使用transformer的qwen2-vl-struct可以正常推理

cyhasuka commented 12 hours ago

2,

另外想问一下这个2B的模型就占用这么大吗,这个原因是什么呀,因为我用qwen的transformer的模型占用显存不超过10g,基于vllm占用比较大的原因是什么呢

这个我感觉是vLLM的KV缓存问题,而且vLLM还有个推理后占用的缓存不会自动清除的问题,这些感觉可能需要自己搞一下,我还在看源码