Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads

gaocegege commented 5 years ago


来自微软的工作,这篇文章是研究了以下三个问题对 DNN 训练的工作负载的调度的影响:

作者根据这些提出了一些设计的 guidelines,来指导下一代为 DNN 训练设计的调度器。

We plan to release traces used for our study and hope that insights and data from our study inform the burgeoning work of scheduling research for machine learning workloads. (求你快一点)

本文针对的工作负载是用 TF,PyTorch,Caffe,MXNet 等框架进行的 LSTM,CNN 等模型训练。在分布式中,采取的数据并行。AllReduce 和参数服务器的更新方式都是支持的。


本文的调度是基于 Yarn 的,跟其他的调度器的比较如图所示:


剩下的内容就是通过实验来验证上面说的三点,以及提出一些 guidelines,这里就不说了,具体见论文

