Project-HAMi / HAMi

Heterogeneous AI Computing Virtualization Middleware
http://project-hami.io
Apache License 2.0
1.04k stars 206 forks source link

【问题】VGPU无法使用 #234

Open zzzzzzyzz opened 8 months ago

zzzzzzyzz commented 8 months ago

我有一个GPU节点(2张卡2080Ti)和三个非GPU节点。我安装了HAMi后,切分了5份,共10个vgpu,显存扩大了4。第一次创建了一个gpu-pod后使用资源是nvidia.com.gpu=2,nvidia.com/gpumem=3000,nvidia.com/gpucores=10,创建成功后。我将gpu-pod删除,重新再以同样的配置再部署,就是失败。失败的图放在下面了。按理说,就算第一个gpu-pod不删除,我应该还剩8个vgpu,并且显存是做过扩充的,再部署应该也不会报错。但是,我删除了第一个部署的pod之后,重新部署还是失败了。 1711681826176

github-actions[bot] commented 8 months ago

Hi @zzzzzzyzz, Thanks for opening an issue! We will look into it as soon as possible.

Details Instructions for interacting with me using comments are available here. If you have questions or suggestions related to my behavior, please file an issue against the [gh-ci-bot](https://github.com/clusterpedia-io/gh-ci-bot) repository.
lengrongfu commented 8 months ago

nvidia.com.gpu This config is defined using a physics device. can you provide your workload yaml?

zzzzzzyzz commented 8 months ago

1711723514005

zzzzzzyzz commented 8 months ago

nvidia.com.gpu=2,nvidia.com/gpumem=3000,nvidia.com/gpucores=10,其实就是这个,后来我把nvidia.com/gpucores删了也没用

archlitchi commented 7 months ago

mutatingwebhook not working properly, please check if you have installed successfully

lys122519 commented 7 months ago

你好,这个要怎么安装啊,helm install hami hami-charts/hami --set scheduler.kubeScheduler.imageTag=v1.16.8 -n kube-system,一直是timeout

zzzzzzyzz commented 6 months ago

会不会是因为我在webhook将失败策略改成ignore的问题,因为我之前刚安装好的时候创建pod是失败的,之前好像看到将策略改变后能够执行。这个是没有安装成功吗?

lys122519 commented 6 months ago

我是使用helm命令十几次莫名其妙就能成功一次,提前下镜像我也试了,hosts也改了,没什么大差别,感觉比较难安装成功

archlitchi commented 6 months ago

我是使用helm命令十几次莫名其妙就能成功一次,提前下镜像我也试了,hosts也改了,没什么大差别,感觉比较难安装成功

请问你的k8s版本是v1.16.8么?安装指令里这个版本需要对齐你的版本才行

lys122519 commented 6 months ago

嗯,这个我了解,然后我现在也是安装成功了,只是有些时候会timeout

archlitchi commented 6 months ago

嗯,这个我了解,然后我现在也是安装成功了,只是有些时候会timeout

一般这种情况都是卡在镜像下载上,你可以参考一下docs/offline_install.md,提前下好镜像,需要注意的是hami的主镜像需要所有GPU节点上都要有

lys122519 commented 6 months ago

好的,谢谢

GuHeeM commented 4 months ago

你好,请问这个问题怎么解决的呢,我现在安装成功,部署pod 的时候也出现这个问题。 @zzzzzzyzz @lengrongfu

lys122519 commented 4 months ago

其一是镜像你看看是不是正常下载,其二是master节点是不是有tainted标记,我就是把tainted去掉了就好了

GuHeeM commented 4 months ago

其一是镜像你看看是不是正常下载,其二是master节点是不是有tainted标记,我就是把tainted去掉了就好了

我的部署yaml是: apiVersion: v1 kind: Pod metadata: name: gpu-pod-nvidia namespace: my-llm-nginx spec: nodeSelector: kubernetes.io/hostname: node4 tolerations:

key: "node-role.kubernetes.io/master" operator: "Exists" effect: "NoSchedule" containers: name: nvidia-container image: nvidia/cuda:10.0-base command: ["bash", "-c", "sleep 86400"] resources: limits: nvidia.com/gpu: 1 nvidia.com/gpumem: 300 nvidia.com/gpucores: 30

节点上没有tainted:

Screenshot 2024-07-08 at 12 34 31

镜像也在:

Screenshot 2024-07-08 at 12 35 35

但是就是报错:

Screenshot 2024-07-08 at 12 36 47

不知道要怎么解决,按照安装步骤里的device-plugin都是running

lys122519 commented 4 months ago

这不是告诉你资源不够么,你这是调度不行,不是安装不行呀

GuHeeM commented 4 months ago

这不是告诉你资源不够么,你这是调度不行,不是安装不行呀

一卡节点上没有任何GPU的任务,然后安装HAMi之后节点有10个vgpu的信息: image

Screenshot 2024-07-08 at 12 47 22

所以应该是有资源的,但是这个scheduler发现不了。

zzzzzzyzz commented 4 months ago

kubernetes.io/hostname: node4

这个nodeSelector:是不是指定了node?建议把一些不必要的规则去掉,部署试试