Closed hrz394943230 closed 5 months ago
llamafactory version ==v0.7.1 torch ==2.1 torch_npu == 2.1.0.post3
ubuntu22.0.4
华为800T A2 8卡 Ascend 910b CANN toolkit = Ascend-cann-toolkit_8.0.RC1_linux-aarch64.run CANN kernels = Ascend-cann-kernels-910b_8.0.RC1_linux.run
运行代码 ASCEND_RT_VISIBLE_DEVICES=0 llamafactory-cli chat llama2.yaml llama2.yaml内容:
model_name_or_path: /mnt/nvme1/models/Llama-2-7b-chat-hf/ template: llama2 do_sample: false
命令成功运行·但是提示使用cpu推理而不是npu
能执行单卡推理llama2 多卡推理llama2
No response
之前也是用过readme中的cann toolkit和kernel 报一样的错误
推理速度正常吗?正常的话那就是在 npu 上面,cpu 会特别慢
不正常,一秒几个token吧,看htop用了两核cpu,npu把模型推进去了,显存有占用但是功率没有变化
一秒几个应该是正常速度
Reminder
System Info
依赖版本
llamafactory version ==v0.7.1 torch ==2.1 torch_npu == 2.1.0.post3
系统版本
ubuntu22.0.4
机器信息
华为800T A2 8卡 Ascend 910b CANN toolkit = Ascend-cann-toolkit_8.0.RC1_linux-aarch64.run CANN kernels = Ascend-cann-kernels-910b_8.0.RC1_linux.run
Reproduction
运行代码 ASCEND_RT_VISIBLE_DEVICES=0 llamafactory-cli chat llama2.yaml llama2.yaml内容:
命令成功运行·但是提示使用cpu推理而不是npu
Expected behavior
能执行单卡推理llama2 多卡推理llama2
Others
No response