Open liutong0127 opened 1 month ago
本地部署的agent,调用qwen-max模型。然后每建立一个对话都需要消耗相应的显存吗?多几个对话,显存满了就只能等待?
No response
目前qwen-max使用的是dashscope api应该不用占显存,如果你使用vllm拉起的qwen小模型的话,目前链路上确实会有开多个对话,有占用多个显存的情况,之前没有遇到这个case。我们高优解一下。感谢提供反馈
本地部署的agent是参考用 sh scripts/run_assistant_server.sh么?
Description
本地部署的agent,调用qwen-max模型。然后每建立一个对话都需要消耗相应的显存吗?多几个对话,显存满了就只能等待?
Link
No response