Multi-tenant GPU Clusters for Deep Learning Workloads: Analysis and Implications

yylin1 commented 5 years ago

https://www.microsoft.com/en-us/research/uploads/prod/2018/05/gpu_sched_tr.pdf

yylin1 commented 5 years ago

此篇論文主要透過觀察企業分配多租戶集群下，影響DNN訓練工作中，集群使用率的的三個問題 (1) the effect of gang scheduling and locality constraints on queuing (2) the effect of locality on GPU utilization (3) failures during training.

gaocegege commented 5 years ago

这篇很赞，我也打算读一下。他们的集群是目前比较主流的 ML 集群的硬件配置。data 存储用 HDFS，调度是 Yarn，其中训练是跑在 Docker 容器里的

yylin1 commented 5 years ago

剛好搜尋到，最近一直在看相關論文，還在確定目前scheduling方向

gaocegege commented 5 years ago

这篇文章是基于 2 个月内，数百用户发起的 100,000 个任务和 YARN 集群的日志等的分析，得到了一些观察：

Gang Scheduling 和 Locality 在调度延迟上的影响
- 调度延迟一方面来自等待 fair share 的调度上，一方面来自满足 Locality 约束的调度上。
- 放松 Locality 的约束，会降低调度延迟，尤其是在任务需要很多 GPU 的时候
调度在 GPU 利用率上的影响
- 没处理好 Locality 的分布式训练任务，提高了同步时候的 Overhead
- 同一 Host 上的不同任务，会相互干扰（PCIe,RDMA 等）
错误的影响
- 大约30%的工作因失败而被取消或未能成功完成。错误是由各种问题引起的，编程错误主要是在训练过程的早期发生;由于集群组件(如HDFS)导致的故障往往发生在训练任务生命周期的后期。

基于这些观察，文章提出了几个经验之谈：

调度程序应该牺牲排队延迟来遵守局部性的约束
共享一个服务器的不同作业可能会相互干扰，从而对它们的训练时间产生负面影响
许多失败应该尽早被发现，比如用 profiling 的方式等

gaocegege commented 5 years ago

关于工作负载，主要是分布式训练。

为了用更大的数据集扩展训练，许多作业使用跨机器的分布式训练。分布式训练通常使用数据并行，每个 worker 将模型的一个完整副本加载到自己的内存中。在每个迭代中，每个worker使用输入数据的子集执行训练，在迭代结束时，所有worker交换梯度来同步模型更新。此同步阶段使用MPI AllReduce[6]或参数服务器执行

所以是同步更新参数的方式

gaocegege commented 5 years ago

关于架构，如图所示：

Screenshot from 2019-08-13 11-35-58