dyweb / papers-notebook

:page_facing_up: :cn: :page_with_curl: 论文阅读笔记(分布式系统、虚拟化、机器学习)Papers Notebook (Distributed System, Virtualization, Machine Learning)
https://github.com/dyweb/papers-notebook/issues?utf8=%E2%9C%93&q=is%3Aissue+is%3Aopen+-label%3ATODO-%E6%9C%AA%E8%AF%BB
Apache License 2.0
2.13k stars 247 forks source link

Optimus: An Efficient Dynamic Resource Scheduler for Deep Learning Clusters #86

Open gaocegege opened 6 years ago

gaocegege commented 6 years ago

EuroSys'18

https://i.cs.hku.hk/~cwu/papers/yhpeng-eurosys18.pdf

gaocegege commented 6 years ago

这篇是采取了在线预测的方式,预测模型的收敛进行调度。

预测分为两部分,一部分是预测 how many more training epochs a job needs to run for convergence,另外一部分是预测 how much time a job needs to complete one training epoch given a certain amount of resources。

第一部分的预测是用 NNLS solver,针对收集的数据点进行在线的 fit。第二部分的预测,是先形式化了问题

gaocegege commented 5 years ago

一个定理非常有价值:

在给定 PS 和 Worker 数量的训练任务中,用越少的服务器进行训练越好。其中每个服务器上部署相同数量的 PS 和 Worker 为最佳。

证明见论文