Open AACengineer opened 2 months ago
我测试了一下我这边的,相同问题输出是完全一样的。(补充,我测是的是1.8B的,没试0.5B的,没转0.5B的模型)
你使用的npu 驱动版本是多少?系统版本是多少?
你使用的npu 驱动版本是多少?系统版本是多少?
npu去驱动版本是0.9.6,系统是Ubuntu 22.04,内核是自己编译的5.10.198
npu去驱动版本是0.9.6,系统是Ubuntu 22.04,内核是自己编译的5.10.198
你测试的是量化的模型吗?使用的core数量?
npu去驱动版本是0.9.6,系统是Ubuntu 22.04,内核是自己编译的5.10.198
你测试的是量化的模型吗?使用的core数量?
是的,量化过的,代码是原仓库test.py
中的,只改了模型源文件和输出文件名,没有改参数,我看默认量化打开的。core数量我设置的是3
我的环境:npu驱动版本是0.9.6,系统是Ubuntu 22.04,内核是6.1.43 我发现量化模型跑多core的时候会有这个问题,不量化或者单core跑的话是ok的。
你是从https://huggingface.co/Qwen/Qwen-1_8B-Chat下载的模型吗? 我是从modelscope上下载的。
modelscope 我也是在modelscope上下载的
你是不是使用的rknn-llmv1.0.1版本?
是的,rkllm-runtime version: 1.0.1
是的,rkllm-runtime version: 1.0.1
这个新的版本测试下来,确实会好很多,但也很偶然地会有不一致的情况出现。
rk3588,Qwen1.5-0.5B的量化模型Qwen1.5-0.5B-a8w8.rkllm,前后两次回答不一致;但不量化的话,多次回答结果是一样的。按照RKLLMParam参数配置,每次结果不应该都是一样的吗?