微调完成后使用llama_factory的vllm和qwen官方的vllm部署方式启动返回的不一样 - Githubissues

hiyouga / LLaMA-Factory

Efficiently Fine-Tune 100+ LLMs in WebUI (ACL 2024)

https://arxiv.org/abs/2403.13372

Apache License 2.0

31.15k stars 3.84k forks source link

微调完成后使用llama_factory的vllm和qwen官方的vllm部署方式启动返回的不一样 #3635

Closed lxb0425 closed 4 months ago

lxb0425 commented 4 months ago

Reminder

[X] I have read the README and searched the existing issues.

Reproduction

大佬有两个问题 1 使用llama_factory 微调成功后使用 CUDA_VISIBLE_DEVICES=0,1 API_PORT=7864 nohup python src/api_demo.py --model_name_or_path /data/model/Qwen1.5-14B-Chat-test --template qwen --infer_backend vllm --vllm_enforce_eager & 部署与使用qwen官方文档推荐的vllm方式部署返回不一样 llama_factory vllm部署的返回都很正常从没出过问题千问官方vllm部署的总是有些问题回复的效果很差几乎乱回答如下图

这是部署哪里有区别吗还是因为微调的原因 2 使用llama_factory vllm私有离线部署 vllm=0.3.3 一段时间后模型突然发现没反应查看显存还在就是请求没有响应回来启动日志啥错也没报请求后还是显示200 nvidia-smi显示如下多了个execute_method

Expected behavior

No response

System Info

No response

Others

No response

zhangfan-algo commented 4 months ago

+1

hiyouga commented 4 months ago

建议使用本框架的 vllm 部署

lxb0425 commented 4 months ago

目前是本框架vllm方式部署的但是一段时间后 v模型突然发现没反应查看显存还在就是请求没有响应回来启动日志啥错也没报请求后还是显示200 nvidia-smi显示如下多了个execute_method 就是问题2

hiyouga commented 4 months ago

不要用 nohup，换成 tmux

lxb0425 commented 4 months ago

好感谢大佬