Qwen1.5-0.5B模型两次回答不一致

airockchip / rknn-llm

Other

258 stars 26 forks source link

Open AACengineer opened 2 months ago

AACengineer commented 2 months ago

rk3588，Qwen1.5-0.5B的量化模型Qwen1.5-0.5B-a8w8.rkllm，前后两次回答不一致；但不量化的话，多次回答结果是一样的。按照RKLLMParam参数配置，每次结果不应该都是一样的吗？

AndySze commented 2 months ago

我测试了一下我这边的，相同问题输出是完全一样的。（补充，我测是的是1.8B的，没试0.5B的，没转0.5B的模型）

AACengineer commented 2 months ago

你使用的npu 驱动版本是多少？系统版本是多少？

AndySze commented 2 months ago

你使用的npu 驱动版本是多少？系统版本是多少？

npu去驱动版本是0.9.6，系统是Ubuntu 22.04，内核是自己编译的5.10.198

AACengineer commented 2 months ago

npu去驱动版本是0.9.6，系统是Ubuntu 22.04，内核是自己编译的5.10.198

你测试的是量化的模型吗？使用的core数量？

AndySze commented 2 months ago

npu去驱动版本是0.9.6，系统是Ubuntu 22.04，内核是自己编译的5.10.198

你测试的是量化的模型吗？使用的core数量？

是的，量化过的，代码是原仓库test.py中的，只改了模型源文件和输出文件名，没有改参数，我看默认量化打开的。core数量我设置的是3

AACengineer commented 2 months ago

我的环境：npu驱动版本是0.9.6，系统是Ubuntu 22.04，内核是6.1.43 我发现量化模型跑多core的时候会有这个问题，不量化或者单core跑的话是ok的。

你是从https://huggingface.co/Qwen/Qwen-1_8B-Chat下载的模型吗？我是从modelscope上下载的。

AndySze commented 2 months ago

modelscope 我也是在modelscope上下载的

AACengineer commented 2 months ago

你是不是使用的rknn-llmv1.0.1版本？

AndySze commented 2 months ago

是的，rkllm-runtime version: 1.0.1

AACengineer commented 2 months ago

是的，rkllm-runtime version: 1.0.1

这个新的版本测试下来，确实会好很多，但也很偶然地会有不一致的情况出现。