Closed zhengkang2020 closed 3 weeks ago
请补充提供 getAvailablePartitionsForCluster
接口的响应
常规:
请求 URL:
https://XXXX/api/job/getAvailablePartitionsForCluster?cluster=hpc01&accountName=mytest
请求方法:
GET
状态代码:
304 Not Modified
远程地址:
192.168.55.82:443
引用站点策略:
strict-origin-when-cross-origin
响应标头:
可能更需要你的响应的具体内容而非响应头
{
"partitions": [
{
"name": "compute",
"memMb": 2317628,
"cores": 416,
"gpus": 0,
"nodes": 5,
"qos": [
"normal",
"low",
"high"
],
"comment": ""
},
{
"name": "gpu",
"memMb": 3094899,
"cores": 384,
"gpus": 0,
"nodes": 2,
"qos": [
"normal",
"low",
"high"
],
"comment": ""
}
]
}
会不会是集群上关于g02节点的配置有问题?
ui 显示问题是因为接口返回的 gpus 为 0导致的。这个数据和 slurm 返回的数据有关。
请在 slurm 节点执行 scontrol show node={替换为你的node节点名} | grep ' Gres=' | awk -F':' '{print $NF}'
,然后提供返回
[root@hpc-g01 ~]# scontrol show node=hpc-g02 | grep ' Gres=' | awk -F':' '{print $NF}'
6
hpc-g01 呢,没有启用吗?
[root@hpc-g01 ~]# scontrol show node=hpc-g01 | grep ' Gres=' | awk -F':' '{print $NF}'
6
都是6张卡的GPU服务器,查询结果是一样的
请在 slurm 节点执行 scontrol show partition={替换为你的gpu分区名} | grep -i ' Nodes=' | awk -F'=' '{print $2}',然后提供返回
[root@hpc-g01 ~]# scontrol show partition=gpu | grep -i ' Nodes=' | awk -F'=' '{print $2}'
hpc-g[01-02]
[root@hpc-g01 ~]# scontrol show partition=gpu | grep -i ' Nodes=' | awk -F'=' '{print $2}' hpc-g[01-02]
可以将hpc-g[01-02]改成hpcGpu[01-02]吗?也就是[]前面的名字不能带-这个符号。改完后再来试试
这样的话是得改gpu主机名把?为了统一命名方式,其他scow节点都得改?
将hpc-g[01-02]改成hpcGpu[01-02]
,这个有什么说法吗?
这样的话是得改gpu主机名把?为了统一命名方式,其他scow节点都得改?
将
hpc-g[01-02]改成hpcGpu[01-02]
,这个有什么说法吗?
目前适配器代码解析分区中的节点名是根据[和-来解析的,[]前面的前缀有-会导致解析不到正确的节点。
只有一台hpc-g01时是正常的,但是会有这个问题 https://github.com/PKUHPC/OpenSCOW/issues/1000
与这个问题有关系吗?
只有一台hpc-g01时是正常的,但是会有这个问题 #1000
与这个问题有关系吗?
这个没关系,cpu核心数是根据这个命令来拿的scontrol show partition=%s | grep TotalCPUs | awk '{print $2}' | awk -F'=' '{print $2}'
如果修改主机名会导致当前running的gpu作业出现问题,最好修改前能看下适配器中会不会有解析到的GPU节点的log?
如果修改主机名会导致当前running的gpu作业出现问题,最好修改前能看下适配器中会不会有解析到的GPU节点的log?
你那边是自己编译的适配器吗?可以重新拉下适配器代码并重新编译适配器并替换一下,应该就能解决这个问题。
是自己编译的适配器,目前是编译的1.6版本的适配器,最近有修复这个问题吗?
是自己编译的适配器,目前是编译的1.6版本的适配器,最近有修复这个问题吗?
https://github.com/PKUHPC/scow-slurm-adapter/pull/23 。这个pr是修复这个问题的,你可以对照移植到你下载好的1.6版本的代码中在编译下
已解决问题,谢谢。
是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?
发生了什么 | What happened
slurm.conf 中加入2个gpu节点时,新建作业选择gpu分区后,选项为cpu分区中的选项;只保留一个gpu节点时正常显示gpu分区选项。 slurm.conf 中加入2个gpu节点时,新建作业选择gpu分区的截图:
只保留一个gpu节点时正常显示gpu分区:
期望结果 | What did you expect to happen
期望多个GPU节点都可以正常使用
之前运行正常吗? | Did this work before?
之前单个gpu节点正常
复现方法 | Steps To Reproduce
1、slurm.conf添加gpu节点 取消注释NodeName=hpc-g02、Partitions的Nodes=hpc-g01,hpc-g02这一行,注释Nodes=hpc-g01和Nodes=hpc-g02这一行时,出现以上情况/
gres.conf中内容不变
portal-server中log有报错不清楚有没有关系。
运行环境 | Environment
备注 | Anything else?
新加的gpu 驱动版本
NVIDIA-SMI 560.35.03 Driver Version: 560.35.03 CUDA Version: 12.6