Closed lxb0425 closed 4 months ago
大佬 有两个问题 1 使用llama_factory 微调成功后 使用 CUDA_VISIBLE_DEVICES=0,1 API_PORT=7864 nohup python src/api_demo.py --model_name_or_path /data/model/Qwen1.5-14B-Chat-test --template qwen --infer_backend vllm --vllm_enforce_eager & 部署 与使用qwen官方文档推荐的vllm方式部署 返回不一样 llama_factory vllm部署的返回都很正常 从没出过问题 千问官方vllm部署的 总是有些问题 回复的效果很差 几乎乱回答 如下图
这是部署哪里有区别吗 还是因为微调的原因 2 使用llama_factory vllm私有离线部署 vllm=0.3.3 一段时间后 模型突然发现没反应 查看显存还在 就是请求没有响应回来 启动日志啥错也没报 请求后还是显示200 nvidia-smi显示如下 多了个execute_method
No response
+1
建议使用本框架的 vllm 部署
目前是本框架vllm方式部署的 但是一段时间后 v模型突然发现没反应 查看显存还在 就是请求没有响应回来 启动日志啥错也没报 请求后还是显示200 nvidia-smi显示如下 多了个execute_method 就是问题2
不要用 nohup,换成 tmux
好 感谢大佬
Reminder
Reproduction
大佬 有两个问题 1 使用llama_factory 微调成功后 使用 CUDA_VISIBLE_DEVICES=0,1 API_PORT=7864 nohup python src/api_demo.py --model_name_or_path /data/model/Qwen1.5-14B-Chat-test --template qwen --infer_backend vllm --vllm_enforce_eager & 部署 与使用qwen官方文档推荐的vllm方式部署 返回不一样 llama_factory vllm部署的返回都很正常 从没出过问题 千问官方vllm部署的 总是有些问题 回复的效果很差 几乎乱回答 如下图
这是部署哪里有区别吗 还是因为微调的原因 2 使用llama_factory vllm私有离线部署 vllm=0.3.3 一段时间后 模型突然发现没反应 查看显存还在 就是请求没有响应回来 启动日志啥错也没报 请求后还是显示200 nvidia-smi显示如下 多了个execute_method
Expected behavior
No response
System Info
No response
Others
No response