Open gaocegege opened 6 years ago
不说 idea,这篇文章的 Background 写的很好,对不了解机器学习的人来说比较友好
大致讀完一輪,主要提出了一種 Online Algorithm 該演算法稱為OASiS,整篇論文演算法細節談非常細,但主要還是看他解決什麼問題,演算法部分看到最後還是沒很懂!
主要目的是解決, Parameter Server機器學習訓練模型下的任務排程問題,如何分配worker和server以滿足訓練需求,同時滿足環境資源總量的限制。
Offline Algorithm
OASiS & Online Algorithm (太複雜看不太懂)
OASiS 演算法針對每個Job 給予最佳執行時間表,能使用不同數量的Worker和PS,以便最佳地利用資源和進行訓練,同時根據論文提出設計,設定的資源項目價格接納工作,以實現長期效用最大化。
OASiS computes the best schedule to run each job, using a varying number of workers and parameter servers over time for best resource utilization and training expedition, while admitting jobs judiciously based on carefully set resource prices, for long-term utility maximization.
實驗結果與環境 :
主要以OASiS 比較現有雲端平台採用的排程 FIFO、Dominant Resource Fairness Scheduling (DRF)、RiskReward Heuristic (RRH)、Dorm 比較,以固定時間比較作業量,結果在訓練固定時間 T = 300 情況下,排程內部工作數量較大情況(尤其在環境資源缺乏)下更出色。
爬文找到介紹:
離線算法: 需要輸入全部數據之後再開始訓練模型。比如說一開始你有1萬行數據,你用這個數據訓練出了一個模型,當你又有了1千行新數據後,你需要把這1千行和原來的1萬行數據合併起來,再重新訓練模型。
在線算法:
不需要重新訓練,在線算法可以按批次接收數據、改進模型。比如說一開始你有1萬行數據,你用這個數據訓練出了一個模型,當你又有了1百行新數據,你不需要把這些新數據與原數據合併,你可以只利用這100行數據對原先的模型進行調整(不是從頭重新訓練),再來1百行數據,又可以利用新的數據對模型進行調整。
@gaocegege 不知道這對於ML Scheduling 關聯性
https://arxiv.org/pdf/1801.00936.pdf