Open e4exp opened 3 years ago
深層学習推薦モデル(DLRM)は、Facebookの多くのビジネスクリティカルなサービスで使用されており、データセンターのインフラ需要において、唯一最大のAIアプリケーションとなっています。 本論文では、大規模なDLRMの高性能な分散トレーニングのためのSW/HW共同設計ソリューションについて説明します。 本論文では、PyTorchをベースにした高性能でスケーラブルなソフトウェアスタックを導入し、それを新たな進化を遂げた zion platform と組み合わせています。 その結果、最大で12兆個のパラメータを持つ大規模なDLRMを学習することができ、従来のシステムと比較して、解答までの時間を40倍に高速化できることを示しました。 これを実現するために、 (i)スケールアウトした専用ネットワークを設計し、高帯域、最適なトポロジー、効率的なトランスポートを提供する (ii)モデルとデータの両方の並列処理をサポートする最適化されたPyTorchベースの学習スタックを実装する (iii)埋め込みテーブルを行と列の次元に沿って階層的に分割し、複数のワーカーに負荷を分散することができるシャーディングアルゴリズムを開発する。 (iv) 完全に決定論的な更新を行うオプティマイザーをサポートする柔軟性を維持しつつ、高性能なコア演算子を追加 (v) 縮小精度通信、マルチレベルメモリ階層(HBM+DDR+SSD)、パイプラインを活用
さらに、本番環境でのロバストで効率的なエンド・ツー・エンドのトレーニングに必要となる、分散データインジェスチョンやその他のサポートサービスを開発し、簡単にコメントしています。
本論文は、以下のような貢献をしています。
深層学習推薦モデル(DLRM)は、Facebookの多くのビジネスクリティカルなサービスで使用されており、データセンターのインフラ需要において、唯一最大のAIアプリケーションとなっています。 本論文では、大規模なDLRMの高性能な分散トレーニングのためのSW/HW共同設計ソリューションについて説明します。 本論文では、PyTorchをベースにした高性能でスケーラブルなソフトウェアスタックを導入し、それを新たな進化を遂げた zion platform と組み合わせています。 その結果、最大で12兆個のパラメータを持つ大規模なDLRMを学習することができ、従来のシステムと比較して、解答までの時間を40倍に高速化できることを示しました。 これを実現するために、 (i)スケールアウトした専用ネットワークを設計し、高帯域、最適なトポロジー、効率的なトランスポートを提供する (ii)モデルとデータの両方の並列処理をサポートする最適化されたPyTorchベースの学習スタックを実装する (iii)埋め込みテーブルを行と列の次元に沿って階層的に分割し、複数のワーカーに負荷を分散することができるシャーディングアルゴリズムを開発する。 (iv) 完全に決定論的な更新を行うオプティマイザーをサポートする柔軟性を維持しつつ、高性能なコア演算子を追加 (v) 縮小精度通信、マルチレベルメモリ階層(HBM+DDR+SSD)、パイプラインを活用
さらに、本番環境でのロバストで効率的なエンド・ツー・エンドのトレーニングに必要となる、分散データインジェスチョンやその他のサポートサービスを開発し、簡単にコメントしています。