Closed leoterry-ulrica closed 1 month ago
@leoterry-ulrica 4卡启动的qwen2-72b-4bit/8bit?启动成功后running models页面什么样发下截图。 然后点了ternimate按钮之后的日志是什么样,也发下
@leoterry-ulrica 4卡启动的qwen2-72b-4bit/8bit?启动成功后running models页面什么样发下截图。 然后点了ternimate按钮之后的日志是什么样,也发下
启动成功后running models
点了terminate之后日志
资源占用情况(看资源应该只释放其中一个卡的占用):
This issue is stale because it has been open for 7 days with no activity.
@ChengjieLi28 目前在4张L20和8张H800都能复现这个问题。
@ChengjieLi28 目前在4张L20和8张H800都能复现这个问题。
首先我这边没出现多卡无法释放资源的问题。先建议升级xinference和vllm。然后建议如下测试:
xinference没有额外做什么管理显存的事情,vllm加载后就完全交给vllm。
新版本v-0.14.1测试通过,已解决这个问题,点赞! @qinxuye @ChengjieLi28
Describe the bug
通过UI端点击关闭模型,但显存资源没有释放,或者释放不干净的问题。
To Reproduce
To help us to reproduce this bug, please provide information below:
Expected behavior
A clear and concise description of what you expected to happen.
Additional context
LLM:qwen2-72b-4bit/8bit