webchat和chat使用在输出时报错RuntimeError: ACL stream synchronize failed, error code:507018

wsbkobe commented 3 months ago

Reminder

[X] I have read the README and searched the existing issues.

System Info

服务器910proB，昇腾910A 280T *8卡，版本配套：cann8.0.RC2最新版本 torch版本2.2.0

Reproduction

ASCEND_RT_VISIBLE_DEVICES=0 llamafactory-cli webchat \ --model_name_or_path /root/workspace/wsb/model/hub/LLM-Research/Meta-Llama-3-8B-Instruct \ --template llama3

服务化网址可以进入，输入问题输出时就报错

Expected behavior

目前使用昇腾910A资源，按照马勇强https://zhuanlan.zhihu.com/p/695287607 学习这个教程，然后按照readme把cuda相关换成npu相关，在llama3-8吧模型纯推理，模型训练上没问题，但在webchat和chat上就会报错，期望能够在昇腾NPU上进行覆盖测试，满足模型训练到部署服务化全流程。

Others

暂无

wsbkobe commented 3 months ago

90b8082078c386e2cc8484fd9be9d23 服务化网址进入及报错信息

DuXiniscool commented 2 months ago

模型调取问题，检查一下yaml文件

wsbkobe commented 2 months ago

这是来自QQ邮箱的假期自动回复邮件。您好，我最近正在休假中，无法亲自回复您的邮件。我将在假期结束后，尽快给您回复。

XYZliang commented 2 months ago

模型调取问题，检查一下yaml文件

我也有一样的问题，yaml 文件如下： model_name_or_path: qwen/Qwen2-7B-Instruct template: qwen

wsbkobe commented 2 months ago

这是来自QQ邮箱的假期自动回复邮件。您好，我最近正在休假中，无法亲自回复您的邮件。我将在假期结束后，尽快给您回复。

hiyouga / LLaMA-Factory