Accelerating Distributed Reinforcement learning with In-Switch Computing (2019)

year: 2019
journal: the 46th International Symposium on Computer Architecture, 2019
url: https://ioujenliu.github.io/papers/iswitch-isca2019.pdf
google scholar: https://scholar.google.co.jp/scholar?hl=ja&as_sdt=0%2C5&q=Accelerating+Distributed+Reinforcement+learning+with+In-Switch+Computing&btnG=
cited: 104 (18-Aug-2023)

背景

環境の変化に適応できるAIベースのアプリケーションの需要の増加に伴い、強化学習(RL)が注目を集めています。分散RLトレーニングは、分散深層ニューラルネットワーク(DNN)トレーニングと比べて、より多くのイテレーションを持ち、より頻繁に小さな勾配集約を行います。

どんなもの?

この論文では、分散RLトレーニングのためのスイッチ内加速ソリューション「iSwitch」を紹介しています。iSwitchは、勾配集約プロセスをサーバノードからネットワークスイッチに移動させ、勾配集約に必要なネットワークホップの数を減少させます。このアプローチは、同期トレーニングのネットワーク遅延を最小限に抑えるだけでなく、非同期トレーニングの収束も向上させます。

先行研究と比べてどこがすごい?

伝統的な分散DNNトレーニングとは異なり、分散RLトレーニングは多くのイテレーションを持ち、より小さな勾配集約を行います。研究によれば、分散RLトレーニングは遅延に敏感であり、勾配集約のためのネットワーク通信が、各トレーニングイテレーションの実行時間の最大83.2%を消費しています。iSwitchはこのボトルネックを解消するために、勾配集約をネットワークスイッチに移動させ、ネットワーク遅延を大幅に削減します。

技術や手法のキモはどこ?

iSwitchは、スイッチ内計算を行うためにプログラマブルスイッチを利用しており、勾配集約のオーバーヘッドを削減します。勾配集約を完了するためには、わずか2つのネットワークホップだけが必要であり、分散RLトレーニングの各イテレーションのエンドツーエンド通信時間を大幅に削減します。さらに、iSwitchは、ラックスケールクラスタの既存のネットワークアーキテクチャを活用して、分散RLトレーニングをスケーリングする階層的な集約メカニズムを導入しています。

どうやって有効だと検証した?

iSwitchは、実際のNetFPGAボードを使用して実装されました。iSwitchの有効性は、DQN、A2C、PPO、DDPGなどの人気のあるRLアルゴリズムをトレーニングすることで示されました。実験結果によれば、iSwitchは、同期分散トレーニングに対して最大3.66倍、非同期分散トレーニングに対して最大3.71倍のシステムレベルのスピードアップを提供し、さらに良好なスケーラビリティを実現しています。

議論はある?

論文では、スイッチ内計算の利点について議論しており、現代のデータセンターでのプログラマブルスイッチの利点を強調しています。また、プログラマブルスイッチを持つレプリケーションされたキーバリューストアでの強い一貫性とフォールトトレランスを確保するための課題についても詳しく議論しています。

次に読むべき論文は?

論文は、次に読むべき論文を具体的に推薦していません。しかし、基礎技術や手法の深い理解のためには、プログラマブルスイッチ、分散RLトレーニング技術、および言及されている特定のRLアルゴリズム(DQN、A2C、PPO、DDPG)に関する作品を探索することを検討すると良いでしょう。

nariaki3551 / library