Project-HAMi / HAMi

Heterogeneous AI Computing Virtualization Middleware
http://project-hami.io/
Apache License 2.0
956 stars 197 forks source link

我在根据演示案例nvidia.com/gpu:2启动pod 出现了UnexpectedAdmissionError #590

Open wei1793786487 opened 2 weeks ago

wei1793786487 commented 2 weeks ago

Please provide an in-depth description of the question you have: 我使用helm安装了HAMi 一切按照默认环境 以及显示了 image 但是在我调度的时候无法调度 image

What do you think about this question?: 是因为需要依赖nvidia device plugin吗 我只安装了HAMi Environment:

Nimbus318 commented 2 weeks ago

@wei1793786487 从目前的现象看:

  1. 调度都没有走到 hami-scheduler
  2. 被 default-scheduler 调度到了 worker1 上,然后这个节点 kubelet 也不知道这个 gpu 资源应该怎么办

    从我的猜测出发,目前的排查思路:

  3. worker1 是 GPU 节点吗?是的话,贴出节点的 Annotation
  4. 确认一下咱们 hami 相关组件都正常运行
    • hami-scheduler 和 hami-device-plugin 是否都正常
    • hami-device-plugin 是不是如预期的跑在了需要使用的 GPU 节点上
  5. 如果都正常,就得往 api-server 调用 hami 的 webhook 通不通的思路查了
wei1793786487 commented 2 weeks ago

@wei1793786487 从目前的现象看:

  1. 调度都没有走到 hami-scheduler
  2. 被 default-scheduler 调度到了 worker1 上,然后这个节点 kubelet 也不知道这个 gpu 资源应该怎么办

从我的猜测出发,目前的排查思路:

  1. worker1 是 GPU 节点吗?是的话,贴出节点的 Annotation
  2. 确认一下咱们 hami 相关组件都正常运行

    • hami-scheduler 和 hami-device-plugin 是否都正常
    • hami-device-plugin 是不是如预期的跑在了需要使用的 GPU 节点上
  3. 如果都正常,就得往 api-server 调用 hami 的 webhook 通不通的思路查了

好的 感谢 ! 我按照这个思路排查一下

wei1793786487 commented 2 weeks ago

@wei1793786487 从目前的现象看:

  1. 调度都没有走到 hami-scheduler
  2. 被 default-scheduler 调度到了 worker1 上,然后这个节点 kubelet 也不知道这个 gpu 资源应该怎么办

从我的猜测出发,目前的排查思路:

  1. worker1 是 GPU 节点吗?是的话,贴出节点的 Annotation
  2. 确认一下咱们 hami 相关组件都正常运行

    • hami-scheduler 和 hami-device-plugin 是否都正常
    • hami-device-plugin 是不是如预期的跑在了需要使用的 GPU 节点上
  3. 如果都正常,就得往 api-server 调用 hami 的 webhook 通不通的思路查了

我知道 是当时helm安装的时候有一部报错了 修改了端口之后就好了 碰巧这个端口被占用了

image