wangzhaode / mnn-llm

llm deploy project based mnn.
Apache License 2.0
1.46k stars 159 forks source link

Qwen1.5-1.8B模型转换问题 #212

Closed robben225 closed 3 months ago

robben225 commented 3 months ago

我使用下面的脚本对Qwen1.5-1.8B进行模型转换: python llm_export.py --path /home/ubuntu/tmp/Qwen1.5-1.8B-Chat --export --export_embed --embed_bin --export_token --export_mnn --type Qwen1_5-1_8B-Chat 转换过程没有出现问题,最后输出Converted Success。但是把我转换的模型放到android设备上推理时,和直接从modelscope上下载的Qwen1.5-1.8B-Chat-MNN相比,decode速度慢得很明显。 @wangzhaode 是不是我的转换脚本参数设置和你的不同,为啥达不到modelscope上的性能?

我转的模型和modelscope上的Qwen1.5-1.8B-Chat-MNN相比,有两个文件大小所有不同,mnn文件相差不少,不知道和这个有没有关系。

微信截图_20240719181655

robben225 commented 3 months ago

Qwen1.5-4B转换出来也是这个问题,decode速度与modelscope上提供相比慢很多。 有人了解这个问题吗啊?

YohannXu commented 3 months ago

https://github.com/alibaba/MNN/releases/tag/2.9.0 可以编译MNN的转换工具,用这个工具去转换onnx,加上 --transformerFuse=1这个参数后速度能快很多 不过我这边测的还是会比modelscope上的慢一点

robben225 commented 3 months ago

ok