Open wei1793786487 opened 2 weeks ago
@wei1793786487 从目前的现象看:
从我的猜测出发,目前的排查思路:
@wei1793786487 从目前的现象看:
- 调度都没有走到 hami-scheduler
- 被 default-scheduler 调度到了 worker1 上,然后这个节点 kubelet 也不知道这个 gpu 资源应该怎么办
从我的猜测出发,目前的排查思路:
- worker1 是 GPU 节点吗?是的话,贴出节点的 Annotation
确认一下咱们 hami 相关组件都正常运行
- hami-scheduler 和 hami-device-plugin 是否都正常
- hami-device-plugin 是不是如预期的跑在了需要使用的 GPU 节点上
- 如果都正常,就得往 api-server 调用 hami 的 webhook 通不通的思路查了
好的 感谢 ! 我按照这个思路排查一下
@wei1793786487 从目前的现象看:
- 调度都没有走到 hami-scheduler
- 被 default-scheduler 调度到了 worker1 上,然后这个节点 kubelet 也不知道这个 gpu 资源应该怎么办
从我的猜测出发,目前的排查思路:
- worker1 是 GPU 节点吗?是的话,贴出节点的 Annotation
确认一下咱们 hami 相关组件都正常运行
- hami-scheduler 和 hami-device-plugin 是否都正常
- hami-device-plugin 是不是如预期的跑在了需要使用的 GPU 节点上
- 如果都正常,就得往 api-server 调用 hami 的 webhook 通不通的思路查了
我知道 是当时helm安装的时候有一部报错了 修改了端口之后就好了 碰巧这个端口被占用了
Please provide an in-depth description of the question you have: 我使用helm安装了HAMi 一切按照默认环境 以及显示了 但是在我调度的时候无法调度
What do you think about this question?: 是因为需要依赖nvidia device plugin吗 我只安装了HAMi Environment: