Qwen1.5-1.8B模型转换问题

robben225 commented 3 months ago

我使用下面的脚本对Qwen1.5-1.8B进行模型转换： python llm_export.py --path /home/ubuntu/tmp/Qwen1.5-1.8B-Chat --export --export_embed --embed_bin --export_token --export_mnn --type Qwen1_5-1_8B-Chat 转换过程没有出现问题，最后输出Converted Success。但是把我转换的模型放到android设备上推理时，和直接从modelscope上下载的Qwen1.5-1.8B-Chat-MNN相比，decode速度慢得很明显。 @wangzhaode 是不是我的转换脚本参数设置和你的不同，为啥达不到modelscope上的性能？

我转的模型和modelscope上的Qwen1.5-1.8B-Chat-MNN相比，有两个文件大小所有不同，mnn文件相差不少，不知道和这个有没有关系。

微信截图_20240719181655

robben225 commented 3 months ago

Qwen1.5-4B转换出来也是这个问题，decode速度与modelscope上提供相比慢很多。有人了解这个问题吗啊？

YohannXu commented 3 months ago

https://github.com/alibaba/MNN/releases/tag/2.9.0 可以编译MNN的转换工具，用这个工具去转换onnx，加上 --transformerFuse=1这个参数后速度能快很多不过我这边测的还是会比modelscope上的慢一点

robben225 commented 3 months ago

ok

wangzhaode / mnn-llm

Qwen1.5-1.8B模型转换问题 #212