依赖版本

llamafactory version ==v0.7.1 torch ==2.1 torch_npu == 2.1.0.post3

系统版本

ubuntu22.0.4

华为800T A2 8卡 Ascend 910b CANN toolkit = Ascend-cann-toolkit_8.0.RC1_linux-aarch64.run CANN kernels = Ascend-cann-kernels-910b_8.0.RC1_linux.run

运行代码 ASCEND_RT_VISIBLE_DEVICES=0 llamafactory-cli chat llama2.yaml llama2.yaml内容：

model_name_or_path: /mnt/nvme1/models/Llama-2-7b-chat-hf/
template: llama2
do_sample: false

命令成功运行·但是提示使用cpu推理而不是npu

能执行单卡推理llama2 多卡推理llama2

No response

hrz394943230 commented 5 months ago

之前也是用过readme中的cann toolkit和kernel 报一样的错误

hiyouga commented 5 months ago

推理速度正常吗？正常的话那就是在 npu 上面，cpu 会特别慢

hrz394943230 commented 5 months ago

推理速度正常吗？正常的话那就是在 npu 上面，cpu 会特别慢

不正常，一秒几个token吧，看htop用了两核cpu，npu把模型推进去了，显存有占用但是功率没有变化

hiyouga commented 5 months ago

一秒几个应该是正常速度