lyulyul / shine-cluster

Simple High performance Infrastructure for Neural network Experiments
GNU General Public License v3.0
14 stars 8 forks source link

Schedule jobs on the least loaded nodes #159

Open gqqnbig opened 2 years ago

gqqnbig commented 2 years ago

Does it make sense?

Lu-233 commented 2 years ago

看起来ok。

不过这种策略将会限制最大的单机可用GPU数量,比如有人要用8块卡训大模型。

gqqnbig commented 2 years ago

需要测试

Lu-233 commented 2 years ago

要看管理员的策略。优先负载,还是优先最大可用GPU数量。

思维实验:两节点集群有两个GPU任务在运行,现在某人想用单机8卡

方案1:根据默认节点/权重,两个任务在节点1运行,节点2有八卡空余。 方案2:平均负载,每个节点有一个任务,每个节点空余7个GPU,此时要等待一个节点空闲才能运行8卡任务。