openvino-dev-samples / Qwen2.openvino

This sample shows how to deploy Qwen2 using OpenVINO

32 stars 3 forks source link

使用 gpu 推理时输出的是!，使用 cpu 推理则正常 #9

Open luhui opened 1 month ago

luhui commented 1 month ago

硬件型号

11th Gen Intel(R) Core(TM) i5-1135G7 @ 2.40GHz 2.42 GHz，集成显卡 Iris

问题现象

使用 gpu 推理结果如下

使用 cpu 推理结果正常

转化指令

optimum-cli export openvino --model './local_dir' --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8  Qwen2.5-7B-Instruct-int4-ov

推理代码

import openvino_genai as ov_genai
pipe = ov_genai.LLMPipeline("Qwen2.5-7B-Instruct-int4-ov", "GPU")

def streamer(subword):
    print(subword, end='', flush=True)
    return False

pipe.start_chat()
while True:
    try:
        prompt = input('question:\n')
    except EOFError:
        break
    pipe.generate(prompt, eos_token_id=151645, max_length=500, streamer=streamer)
    print('\n----------')
pipe.finish_chat()

openvino-dev-samples commented 1 month ago

hi @luhui 你试过用chat.py吗，目前chat_genai.py在集显上是有些问题。

luhui commented 1 month ago

@openvino-dev-samples hi，我用 chat.py 测试，在 cpu 上能够正常运行，但是使用 gpu 提示。并且在 compile 阶段，GPU 比 CPU慢了很多，GPU 大概要等半分钟，CPU 不到 10s 就编译完了。

使用 GPU 推理的报错信息

使用CPU推理则正常

这是因为集显的兼容性问题么？

openvino-dev-samples commented 1 month ago

@luhui 感谢分享，GPU编译时间比CPU久是正常的，集显上的这个问题我们还在解决中。

luhui commented 1 month ago

@openvino-dev-samples 我重新下载模型重试，成功了，用的 genai。

但是模型转化没有使用 export.py，而是用的 optimum-cli，export.py 报如下的错误，好像是前面 save model 后没有释放文件句柄。

luhui commented 1 month ago

另外我目前测试了 qwen2.5 系列的 3B、7B，发现 cpu 输出 token 的性能比 gpu 好 3 倍左右。现在 openvino 是没有针对集显做优化是吗？

模型转化命令如下：

optimum-cli export openvino --model '.\model\qwen\Qwen2__5-3B-Instruct' --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8  Qwen2.5-3B-Instruct-int4-ov

openvino-dev-samples commented 1 month ago

@luhui 感谢分享，看来是因为量化参数问题，我已经在convert.py上做了修改

openvino-dev-samples commented 1 month ago

另外我目前测试了 qwen2.5 系列的 3B、7B，发现 cpu 输出 token 的性能比 gpu 好 3 倍左右。现在 openvino 是没有针对集显做优化是吗？

模型转化命令如下：
optimum-cli export openvino --model '.\model\qwen\Qwen2__5-3B-Instruct' --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8  Qwen2.5-3B-Instruct-int4-ov

目前的优化策略主要围绕Ultra CPU的集显，Iris的集显性能是会差一些