使用vllm和transformer部署Qwen2vl，同一张图片输出结果不一致 - Githubissues

QwenLM / Qwen2-VL

Qwen2-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.

Apache License 2.0

3.23k stars 202 forks source link

使用vllm和transformer部署Qwen2vl，同一张图片输出结果不一致 #535

Open Apricot1225 opened 1 week ago

Apricot1225 commented 1 week ago

使用Qwen2-VL-7B-Instruct模型做ocr信息抽取任务，微调后使用同样的权重，vllm和transformer部署的服务同一张图片输出结果不一致。transformer能够正确输出的文本信息，使用vllm会出现叠字、信息提取不到的情况，具体表现为：

transformer输出：{“公司名称”：“xxx布艺有限公司”，“支付方式”：“银行承兑汇票”} vllm输出：{“公司名称”：“xxx布艺艺有限公司”，“支付方式”：NaN}

尝试调整temperature、repetition_penalty等参数，vllm总无法完全去除叠字的问题，而且还会影响别的字段的结果。 transformer的调用代码参考了：https://github.com/QwenLM/Qwen2-VL/blob/main/README.md#using---transformers-to-chat vllm的调用代码参考了：https://github.com/QwenLM/Qwen2-VL/blob/main/README.md#inference-locally

请问有大佬遇到过同样的情况吗？是如何解决的，感谢！

附版本信息： transformer=4.45.0.dev0 vllm=0.6.1.post2+cu118 torch=2.4.1+cu118 flash-attn=2.6.3