Open gqqnbig opened 2 years ago
Does it make sense?
看起来ok。
不过这种策略将会限制最大的单机可用GPU数量,比如有人要用8块卡训大模型。
需要测试
要看管理员的策略。优先负载,还是优先最大可用GPU数量。
思维实验:两节点集群有两个GPU任务在运行,现在某人想用单机8卡
方案1:根据默认节点/权重,两个任务在节点1运行,节点2有八卡空余。 方案2:平均负载,每个节点有一个任务,每个节点空余7个GPU,此时要等待一个节点空闲才能运行8卡任务。
Does it make sense?