Open zzzzzzyzz opened 8 months ago
Hi @zzzzzzyzz, Thanks for opening an issue! We will look into it as soon as possible.
nvidia.com.gpu
This config is defined using a physics device. can you provide your workload yaml?
nvidia.com.gpu=2,nvidia.com/gpumem=3000,nvidia.com/gpucores=10,其实就是这个,后来我把nvidia.com/gpucores删了也没用
mutatingwebhook not working properly, please check if you have installed successfully
你好,这个要怎么安装啊,helm install hami hami-charts/hami --set scheduler.kubeScheduler.imageTag=v1.16.8 -n kube-system,一直是timeout
会不会是因为我在webhook将失败策略改成ignore的问题,因为我之前刚安装好的时候创建pod是失败的,之前好像看到将策略改变后能够执行。这个是没有安装成功吗?
我是使用helm命令十几次莫名其妙就能成功一次,提前下镜像我也试了,hosts也改了,没什么大差别,感觉比较难安装成功
我是使用helm命令十几次莫名其妙就能成功一次,提前下镜像我也试了,hosts也改了,没什么大差别,感觉比较难安装成功
请问你的k8s版本是v1.16.8么?安装指令里这个版本需要对齐你的版本才行
嗯,这个我了解,然后我现在也是安装成功了,只是有些时候会timeout
嗯,这个我了解,然后我现在也是安装成功了,只是有些时候会timeout
一般这种情况都是卡在镜像下载上,你可以参考一下docs/offline_install.md,提前下好镜像,需要注意的是hami的主镜像需要所有GPU节点上都要有
好的,谢谢
你好,请问这个问题怎么解决的呢,我现在安装成功,部署pod 的时候也出现这个问题。 @zzzzzzyzz @lengrongfu
其一是镜像你看看是不是正常下载,其二是master节点是不是有tainted标记,我就是把tainted去掉了就好了
其一是镜像你看看是不是正常下载,其二是master节点是不是有tainted标记,我就是把tainted去掉了就好了
我的部署yaml是: apiVersion: v1 kind: Pod metadata: name: gpu-pod-nvidia namespace: my-llm-nginx spec: nodeSelector: kubernetes.io/hostname: node4 tolerations:
key: "node-role.kubernetes.io/master" operator: "Exists" effect: "NoSchedule" containers: name: nvidia-container image: nvidia/cuda:10.0-base command: ["bash", "-c", "sleep 86400"] resources: limits: nvidia.com/gpu: 1 nvidia.com/gpumem: 300 nvidia.com/gpucores: 30
节点上没有tainted:
镜像也在:
但是就是报错:
不知道要怎么解决,按照安装步骤里的device-plugin都是running
这不是告诉你资源不够么,你这是调度不行,不是安装不行呀
这不是告诉你资源不够么,你这是调度不行,不是安装不行呀
一卡节点上没有任何GPU的任务,然后安装HAMi之后节点有10个vgpu的信息:
所以应该是有资源的,但是这个scheduler发现不了。
kubernetes.io/hostname: node4
这个nodeSelector:是不是指定了node?建议把一些不必要的规则去掉,部署试试
我有一个GPU节点(2张卡2080Ti)和三个非GPU节点。我安装了HAMi后,切分了5份,共10个vgpu,显存扩大了4。第一次创建了一个gpu-pod后使用资源是nvidia.com.gpu=2,nvidia.com/gpumem=3000,nvidia.com/gpucores=10,创建成功后。我将gpu-pod删除,重新再以同样的配置再部署,就是失败。失败的图放在下面了。按理说,就算第一个gpu-pod不删除,我应该还剩8个vgpu,并且显存是做过扩充的,再部署应该也不会报错。但是,我删除了第一个部署的pod之后,重新部署还是失败了。