Closed Hugh-yw closed 2 weeks ago
fuser -v /var/lib/kubelet/device-plugins/nvidia-gpu.sock
确认一下这个 sock 的使用状态,如果有进程在用,再 ps -p <PID> -o pid,cmd
看看进程的具体情况然后这里
volcano.sh/gpu-memory: "0" # 此处为什么没有自动清理 volcano.sh/gpu-number: "0" # 此处为什么没有自动清理
应该是 https://github.com/Project-HAMi/volcano-vgpu-device-plugin 这个 dp 上报的
- 使用
fuser -v /var/lib/kubelet/device-plugins/nvidia-gpu.sock
确认一下这个袜子的使用状态,如果有进程在使用,再ps -p <PID> -o pid,cmd
看看进程的具体情况然后这里
Volcano.sh/gpu-memory: "0" # 这里为什么没有自动清理 volcano.sh/gpu-number: "0" # 这里为什么没有自动清理
应该是https://github.com/Project-HAMi/volcano-vgpu-device-plugin这个dp上报的
这个是默认安装了gpu-operator引用的吧,安装完hami-device-plugin,然后卸载 发现 nvidia.com/vgpu: "0" 还在节点资源中
~# fuser -v /var/lib/kubelet/device-plugins/nvidia-gpu.sock
USER PID ACCESS COMMAND
/var/lib/kubelet/device-plugins/nvidia-gpu.sock:
root 23933 F.... nvidia-device-p
root@ser-inspur-01:~#
root@ser-inspur-01:~# ps -p 23933 -o pid,cmd
PID CMD
23933 nvidia-device-plugin
有尝试过重启kubelet和 nvidia-device-plugin @Nimbus318
- 使用
fuser -v /var/lib/kubelet/device-plugins/nvidia-gpu.sock
确认一下这个袜子的使用状态,如果有进程在使用,再ps -p <PID> -o pid,cmd
看看进程的具体情况然后这里
Volcano.sh/gpu-memory: "0" # 这里为什么没有自动清理 volcano.sh/gpu-number: "0" # 这里为什么没有自动清理
应该是https://github.com/Project-HAMi/volcano-vgpu-device-plugin这个dp上报的
这个是默认安装了gpu-operator引用的吧,安装完成hami-device-plugin,卸载发现nvidia.com/vgpu: "0" 剩余节点资源中
~# fuser -v /var/lib/kubelet/device-plugins/nvidia-gpu.sock USER PID ACCESS COMMAND /var/lib/kubelet/device-plugins/nvidia-gpu.sock: root 23933 F.... nvidia-device-p root@ser-inspur-01:~# root@ser-inspur-01:~# ps -p 23933 -o pid,cmd PID CMD 23933 nvidia-device-plugin
尝试重新启动 kubelet 和 nvidia-device-plugin@Nimbus318
- 使用
fuser -v /var/lib/kubelet/device-plugins/nvidia-gpu.sock
确认一下这个袜子的使用状态,如果有进程在使用,再ps -p <PID> -o pid,cmd
看看进程的具体情况然后这里
Volcano.sh/gpu-memory: "0" # 这里为什么没有自动清理 volcano.sh/gpu-number: "0" # 这里为什么没有自动清理
应该是https://github.com/Project-HAMi/volcano-vgpu-device-plugin这个dp上报的
这个是默认安装了gpu-operator引用的吧,安装完成hami-device-plugin,卸载发现nvidia.com/vgpu: "0" 剩余节点资源中
~# fuser -v /var/lib/kubelet/device-plugins/nvidia-gpu.sock USER PID ACCESS COMMAND /var/lib/kubelet/device-plugins/nvidia-gpu.sock: root 23933 F.... nvidia-device-p root@ser-inspur-01:~# root@ser-inspur-01:~# ps -p 23933 -o pid,cmd PID CMD 23933 nvidia-device-plugin
尝试重新启动 kubelet 和 nvidia-device-plugin@Nimbus318
此问题已解决,需要调用apiserver接口去删除扩展资源
curl --header "Content-Type: application/json-patch+json" \
--request PATCH \
--data '[{"op": "remove", "path": "/status/capacity/nvidia.com~1vgpu"}]' \
http://localhost:8001/api/v1/nodes/ser-inspur-01/status
问题描述: 卸载hami组件后,集群中的节点资源标签Resource name:nvidia.com/vgpu 未清理
Environment: