Online Job Scheduling in Distributed Machine Learning Clusters

gaocegege commented 6 years ago

https://arxiv.org/pdf/1801.00936.pdf

gaocegege commented 6 years ago

不说 idea，这篇文章的 Background 写的很好，对不了解机器学习的人来说比较友好

yylin1 commented 5 years ago

大致讀完一輪，主要提出了一種 Online Algorithm 該演算法稱為OASiS，整篇論文演算法細節談非常細，但主要還是看他解決什麼問題，演算法部分看到最後還是沒很懂!

主要目的是解決， Parameter Server機器學習訓練模型下的任務排程問題，如何分配worker和server以滿足訓練需求，同時滿足環境資源總量的限制。

Offline Algorithm

確定接受哪部分的job，不接受哪部分job，並為每一個 job 分配worker和server，最終實現所有job的效用函數最大化的同時滿足各種限制。

OASiS & Online Algorithm (太複雜看不太懂)

OASiS 演算法針對每個Job 給予最佳執行時間表，能使用不同數量的Worker和PS，以便最佳地利用資源和進行訓練，同時根據論文提出設計，設定的資源項目價格接納工作，以實現長期效用最大化。

OASiS computes the best schedule to run each job, using a varying number of workers and parameter servers over time for best resource utilization and training expedition, while admitting jobs judiciously based on carefully set resource prices, for long-term utility maximization.

實驗結果與環境 :

主要以OASiS 比較現有雲端平台採用的排程 FIFO、Dominant Resource Fairness Scheduling (DRF)、RiskReward Heuristic (RRH)、Dorm 比較，以固定時間比較作業量，結果在訓練固定時間 T = 300 情況下，排程內部工作數量較大情況（尤其在環境資源缺乏）下更出色。

5515

yylin1 commented 5 years ago

參考論文提到 online vs offline algorithm

爬文找到介紹:

離線算法: 需要輸入全部數據之後再開始訓練模型。比如說一開始你有1萬行數據，你用這個數據訓練出了一個模型，當你又有了1千行新數據後，你需要把這1千行和原來的1萬行數據合併起來，再重新訓練模型。
在線算法:
不需要重新訓練，在線算法可以按批次接收數據、改進模型。比如說一開始你有1萬行數據，你用這個數據訓練出了一個模型，當你又有了1百行新數據，你不需要把這些新數據與原數據合併，你可以只利用這100行數據對原先的模型進行調整（不是從頭重新訓練），再來1百行數據，又可以利用新的數據對模型進行調整。

@gaocegege 不知道這對於ML Scheduling 關聯性

dyweb / papers-notebook

Online Job Scheduling in Distributed Machine Learning Clusters #53

參考論文提到 online vs offline algorithm