Closed LLouice closed 1 month ago
先把 random sampling 关掉(temperature=0.0
),基于这个条件,还是有重复性的情况么?
@LLouice 具体用的哪个commit? b28a1d048491b9ffd6d1bff48a424d40622ae147 之前的版本不支持在 V100 上跑 AWQ
先把 random sampling 关掉(
temperature=0.0
),基于这个条件,还是有重复性的情况么?
还是会重复的
@LLouice 具体用的哪个commit? b28a1d0 之前的版本不支持在 V100 上跑 AWQ
最新的从这个开发版https://github.com/zhyncs/lmdeploy-build/releases/download/f8f8543/lmdeploy-0.5.3+cu121+f8f8543-cp39-cp39-manylinux2014_x86_64.whl安装的。抱歉!之前的check_env信息贴错了,我刚更新了,所有操作都是在A800上进行的
@LLouice
建议试试新版本 https://github.com/zhyncs/lmdeploy-build/releases/tag/b28a1d0 , 之前的版本 sliced-k 累加的精度低一些。
@LLouice
建议试试新版本 https://github.com/zhyncs/lmdeploy-build/releases/tag/b28a1d0 , 之前的版本 sliced-k 累加的精度低一些。
嗯,试了这版本问题都解决了, thanks!
Checklist
Describe the bug
AWQ量化Qwen2-72B-Instruct模型(为了排除模型影响这里实验直接使用官方的模型而非SFT模型), 为了多tp部署,参考pad 0 的解决方案先将中间掩藏层pad 0然后再量化,量化的模型使用vllm, lmdeploy pytorch引擎均部署成功,输出结果正常。
但是转成TurboMind格式部署结果就存在严重的重复不可用的问题
重复输出
正常输出
Reproduction
Convert AWQ model into TurboMind format
Serve TruboMind format model
Call api
Environment
Error traceback
No response