Open luhui opened 1 month ago
hi @luhui 你试过用chat.py吗,目前chat_genai.py在集显上是有些问题。
@openvino-dev-samples hi,我用 chat.py 测试,在 cpu 上能够正常运行,但是使用 gpu 提示。 并且在 compile 阶段,GPU 比 CPU慢了很多,GPU 大概要等半分钟,CPU 不到 10s 就编译完了。
这是因为集显的兼容性问题么?
@luhui 感谢分享,GPU编译时间比CPU久是正常的,集显上的这个问题我们还在解决中。
@openvino-dev-samples 我重新下载模型重试,成功了,用的 genai。
但是模型转化没有使用 export.py,而是用的 optimum-cli,export.py 报如下的错误,好像是前面 save model 后没有释放文件句柄。
另外我目前测试了 qwen2.5 系列的 3B、7B,发现 cpu 输出 token 的性能比 gpu 好 3 倍左右。 现在 openvino 是没有针对集显做优化是吗?
模型转化命令如下:
optimum-cli export openvino --model '.\model\qwen\Qwen2__5-3B-Instruct' --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 Qwen2.5-3B-Instruct-int4-ov
@luhui 感谢分享,看来是因为量化参数问题,我已经在convert.py上做了修改
另外我目前测试了 qwen2.5 系列的 3B、7B,发现 cpu 输出 token 的性能比 gpu 好 3 倍左右。 现在 openvino 是没有针对集显做优化是吗?
模型转化命令如下:
optimum-cli export openvino --model '.\model\qwen\Qwen2__5-3B-Instruct' --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 Qwen2.5-3B-Instruct-int4-ov
目前的优化策略主要围绕Ultra CPU的集显,Iris的集显性能是会差一些
硬件型号
11th Gen Intel(R) Core(TM) i5-1135G7 @ 2.40GHz 2.42 GHz,集成显卡 Iris
问题现象
使用 gpu 推理结果如下
使用 cpu 推理结果正常
转化指令
推理代码