airockchip / rknn-llm

Other
258 stars 26 forks source link

Qwen1.5-0.5B模型两次回答不一致 #37

Open AACengineer opened 2 months ago

AACengineer commented 2 months ago

rk3588,Qwen1.5-0.5B的量化模型Qwen1.5-0.5B-a8w8.rkllm,前后两次回答不一致;但不量化的话,多次回答结果是一样的。按照RKLLMParam参数配置,每次结果不应该都是一样的吗?

3

2

AndySze commented 2 months ago

我测试了一下我这边的,相同问题输出是完全一样的。(补充,我测是的是1.8B的,没试0.5B的,没转0.5B的模型)

AACengineer commented 2 months ago

你使用的npu 驱动版本是多少?系统版本是多少?

AndySze commented 2 months ago

你使用的npu 驱动版本是多少?系统版本是多少?

npu去驱动版本是0.9.6,系统是Ubuntu 22.04,内核是自己编译的5.10.198

AACengineer commented 2 months ago

npu去驱动版本是0.9.6,系统是Ubuntu 22.04,内核是自己编译的5.10.198

你测试的是量化的模型吗?使用的core数量?

AndySze commented 2 months ago

npu去驱动版本是0.9.6,系统是Ubuntu 22.04,内核是自己编译的5.10.198

你测试的是量化的模型吗?使用的core数量?

是的,量化过的,代码是原仓库test.py中的,只改了模型源文件和输出文件名,没有改参数,我看默认量化打开的。core数量我设置的是3

AACengineer commented 2 months ago

我的环境:npu驱动版本是0.9.6,系统是Ubuntu 22.04,内核是6.1.43 我发现量化模型跑多core的时候会有这个问题,不量化或者单core跑的话是ok的。

你是从https://huggingface.co/Qwen/Qwen-1_8B-Chat下载的模型吗? 我是从modelscope上下载的。

AndySze commented 2 months ago

modelscope 我也是在modelscope上下载的

AACengineer commented 2 months ago

你是不是使用的rknn-llmv1.0.1版本?

AndySze commented 2 months ago

是的,rkllm-runtime version: 1.0.1

AACengineer commented 2 months ago

是的,rkllm-runtime version: 1.0.1

这个新的版本测试下来,确实会好很多,但也很偶然地会有不一致的情况出现。