dyweb / papers-notebook

:page_facing_up: :cn: :page_with_curl: 论文阅读笔记(分布式系统、虚拟化、机器学习)Papers Notebook (Distributed System, Virtualization, Machine Learning)
https://github.com/dyweb/papers-notebook/issues?utf8=%E2%9C%93&q=is%3Aissue+is%3Aopen+-label%3ATODO-%E6%9C%AA%E8%AF%BB
Apache License 2.0
2.12k stars 244 forks source link

Online Job Scheduling in Distributed Machine Learning Clusters #53

Open gaocegege opened 6 years ago

gaocegege commented 6 years ago

https://arxiv.org/pdf/1801.00936.pdf

gaocegege commented 6 years ago

不说 idea,这篇文章的 Background 写的很好,对不了解机器学习的人来说比较友好

yylin1 commented 5 years ago

大致讀完一輪,主要提出了一種 Online Algorithm 該演算法稱為OASiS,整篇論文演算法細節談非常細,但主要還是看他解決什麼問題,演算法部分看到最後還是沒很懂!

主要目的是解決, Parameter Server機器學習訓練模型下的任務排程問題,如何分配worker和server以滿足訓練需求,同時滿足環境資源總量的限制。

Offline Algorithm

OASiS & Online Algorithm (太複雜看不太懂)

OASiS 演算法針對每個Job 給予最佳執行時間表,能使用不同數量的Worker和PS,以便最佳地利用資源和進行訓練,同時根據論文提出設計,設定的資源項目價格接納工作,以實現長期效用最大化。

OASiS computes the best schedule to run each job, using a varying number of workers and parameter servers over time for best resource utilization and training expedition, while admitting jobs judiciously based on carefully set resource prices, for long-term utility maximization.

實驗結果與環境 :

主要以OASiS 比較現有雲端平台採用的排程 FIFO、Dominant Resource Fairness Scheduling (DRF)、RiskReward Heuristic (RRH)、Dorm 比較,以固定時間比較作業量,結果在訓練固定時間 T = 300 情況下,排程內部工作數量較大情況(尤其在環境資源缺乏)下更出色。

5515

yylin1 commented 5 years ago

參考論文提到 online vs offline algorithm

爬文找到介紹:

@gaocegege 不知道這對於ML Scheduling 關聯性