hiyouga / LLaMA-Factory

Unified Efficient Fine-Tuning of 100+ LLMs (ACL 2024)
https://arxiv.org/abs/2403.13372
Apache License 2.0
34.06k stars 4.19k forks source link

Ascend NPU推理llama2报错 #4159

Closed hrz394943230 closed 5 months ago

hrz394943230 commented 5 months ago

Reminder

System Info

依赖版本

llamafactory version ==v0.7.1 torch ==2.1 torch_npu == 2.1.0.post3

系统版本

ubuntu22.0.4

机器信息

华为800T A2 8卡 Ascend 910b CANN toolkit = Ascend-cann-toolkit_8.0.RC1_linux-aarch64.run CANN kernels = Ascend-cann-kernels-910b_8.0.RC1_linux.run

Reproduction

运行代码 ASCEND_RT_VISIBLE_DEVICES=0 llamafactory-cli chat llama2.yaml llama2.yaml内容:

model_name_or_path: /mnt/nvme1/models/Llama-2-7b-chat-hf/
template: llama2
do_sample: false

命令成功运行·但是提示使用cpu推理而不是npu

image

Expected behavior

能执行单卡推理llama2 多卡推理llama2

Others

No response

hrz394943230 commented 5 months ago

之前也是用过readme中的cann toolkit和kernel 报一样的错误

hiyouga commented 5 months ago

推理速度正常吗?正常的话那就是在 npu 上面,cpu 会特别慢

hrz394943230 commented 5 months ago

推理速度正常吗?正常的话那就是在 npu 上面,cpu 会特别慢

不正常,一秒几个token吧,看htop用了两核cpu,npu把模型推进去了,显存有占用但是功率没有变化

hiyouga commented 5 months ago

一秒几个应该是正常速度