hiyouga / LLaMA-Factory

Efficiently Fine-Tune 100+ LLMs in WebUI (ACL 2024)
https://arxiv.org/abs/2403.13372
Apache License 2.0
31.15k stars 3.84k forks source link

微调完成后使用llama_factory的vllm和qwen官方的vllm部署方式启动返回的不一样 #3635

Closed lxb0425 closed 4 months ago

lxb0425 commented 4 months ago

Reminder

Reproduction

大佬 有两个问题 1 使用llama_factory 微调成功后 使用 CUDA_VISIBLE_DEVICES=0,1 API_PORT=7864 nohup python src/api_demo.py --model_name_or_path /data/model/Qwen1.5-14B-Chat-test --template qwen --infer_backend vllm --vllm_enforce_eager & 部署 与使用qwen官方文档推荐的vllm方式部署 image 返回不一样 llama_factory vllm部署的返回都很正常 从没出过问题 千问官方vllm部署的 总是有些问题 回复的效果很差 几乎乱回答 如下图 image

这是部署哪里有区别吗 还是因为微调的原因 2 使用llama_factory vllm私有离线部署 vllm=0.3.3 一段时间后 模型突然发现没反应 查看显存还在 就是请求没有响应回来 启动日志啥错也没报 请求后还是显示200 nvidia-smi显示如下 多了个execute_method
image

Expected behavior

No response

System Info

No response

Others

No response

zhangfan-algo commented 4 months ago

+1

hiyouga commented 4 months ago

建议使用本框架的 vllm 部署

lxb0425 commented 4 months ago

目前是本框架vllm方式部署的 但是一段时间后 v模型突然发现没反应 查看显存还在 就是请求没有响应回来 启动日志啥错也没报 请求后还是显示200 nvidia-smi显示如下 多了个execute_method 就是问题2

hiyouga commented 4 months ago

不要用 nohup,换成 tmux

lxb0425 commented 4 months ago

好 感谢大佬