AliyunContainerService / gpushare-scheduler-extender

GPU Sharing Scheduler for Kubernetes Cluster
Apache License 2.0
1.39k stars 308 forks source link

配置显存之后,和nvidia-smi看到不的不一致 #133

Open Tianjianyu0001 opened 3 years ago

Tianjianyu0001 commented 3 years ago

hi,您好,我设置为显存为2G,但是进入到容器里看到的还是gpu宿主机的显卡的显存, 而在执行 kubectl-inspect-gpushare -d可以看到是限制到了2g,但是在实际使用的时候还是GPU宿主机的显卡的全部显存

image image

daviderli614 commented 3 years ago

hi,您好,我设置为显存为2G,但是进入到容器里看到的还是gpu宿主机的显卡的显存, 而在执行 kubectl-inspect-gpushare -d可以看到是限制到了2g,但是在实际使用的时候还是GPU宿主机的显卡的全部显存

image image

这个没有做显存隔离的

daviderli614 commented 3 years ago

hi,您好,我设置为显存为2G,但是进入到容器里看到的还是gpu宿主机的显卡的显存, 而在执行 kubectl-inspect-gpushare -d可以看到是限制到了2g,但是在实际使用的时候还是GPU宿主机的显卡的全部显存

image image

inspect只是展示yaml声明的显存,并不是真正使用的

wwj-2017-1117 commented 3 years ago

我也遇到的同样的问题, 显存级别的隔离 完全没有限制住;

sunmac commented 3 years ago

k8s级别的调度,无法对节点的gpu显存进行限制的。

zlingqu commented 3 years ago

获取单个pod使用的显存大小,可参考 https://github.com/zlingqu/nvidia-gpu-mem-monitor