【问题】VGPU无法使用

zzzzzzyzz commented 8 months ago

我有一个GPU节点（2张卡2080Ti）和三个非GPU节点。我安装了HAMi后，切分了5份，共10个vgpu，显存扩大了4。第一次创建了一个gpu-pod后使用资源是nvidia.com.gpu=2,nvidia.com/gpumem=3000,nvidia.com/gpucores=10,创建成功后。我将gpu-pod删除，重新再以同样的配置再部署，就是失败。失败的图放在下面了。按理说，就算第一个gpu-pod不删除，我应该还剩8个vgpu,并且显存是做过扩充的，再部署应该也不会报错。但是，我删除了第一个部署的pod之后，重新部署还是失败了。 1711681826176

github-actions[bot] commented 8 months ago

Hi @zzzzzzyzz, Thanks for opening an issue! We will look into it as soon as possible.

Details

Instructions for interacting with me using comments are available here. If you have questions or suggestions related to my behavior, please file an issue against the [gh-ci-bot](https://github.com/clusterpedia-io/gh-ci-bot) repository.

lengrongfu commented 8 months ago

nvidia.com.gpu This config is defined using a physics device. can you provide your workload yaml?

zzzzzzyzz commented 8 months ago

1711723514005

zzzzzzyzz commented 8 months ago

nvidia.com.gpu=2,nvidia.com/gpumem=3000,nvidia.com/gpucores=10,其实就是这个，后来我把nvidia.com/gpucores删了也没用

archlitchi commented 7 months ago

mutatingwebhook not working properly, please check if you have installed successfully

lys122519 commented 7 months ago

你好，这个要怎么安装啊，helm install hami hami-charts/hami --set scheduler.kubeScheduler.imageTag=v1.16.8 -n kube-system，一直是timeout

zzzzzzyzz commented 6 months ago

会不会是因为我在webhook将失败策略改成ignore的问题，因为我之前刚安装好的时候创建pod是失败的，之前好像看到将策略改变后能够执行。这个是没有安装成功吗？

lys122519 commented 6 months ago

我是使用helm命令十几次莫名其妙就能成功一次，提前下镜像我也试了，hosts也改了，没什么大差别，感觉比较难安装成功

archlitchi commented 6 months ago

我是使用helm命令十几次莫名其妙就能成功一次，提前下镜像我也试了，hosts也改了，没什么大差别，感觉比较难安装成功

请问你的k8s版本是v1.16.8么？安装指令里这个版本需要对齐你的版本才行

lys122519 commented 6 months ago

嗯，这个我了解，然后我现在也是安装成功了，只是有些时候会timeout

archlitchi commented 6 months ago

嗯，这个我了解，然后我现在也是安装成功了，只是有些时候会timeout

一般这种情况都是卡在镜像下载上，你可以参考一下docs/offline_install.md，提前下好镜像，需要注意的是hami的主镜像需要所有GPU节点上都要有

lys122519 commented 6 months ago

好的，谢谢

GuHeeM commented 4 months ago

你好，请问这个问题怎么解决的呢，我现在安装成功，部署pod 的时候也出现这个问题。 @zzzzzzyzz @lengrongfu

lys122519 commented 4 months ago

其一是镜像你看看是不是正常下载，其二是master节点是不是有tainted标记，我就是把tainted去掉了就好了

GuHeeM commented 4 months ago

其一是镜像你看看是不是正常下载，其二是master节点是不是有tainted标记，我就是把tainted去掉了就好了

我的部署yaml是： apiVersion: v1 kind: Pod metadata: name: gpu-pod-nvidia namespace: my-llm-nginx spec: nodeSelector: kubernetes.io/hostname: node4 tolerations:

key: "node-role.kubernetes.io/master" operator: "Exists" effect: "NoSchedule" containers: name: nvidia-container image: nvidia/cuda:10.0-base command: ["bash", "-c", "sleep 86400"] resources: limits: nvidia.com/gpu: 1 nvidia.com/gpumem: 300 nvidia.com/gpucores: 30

节点上没有tainted：