High-performance, Distributed Training of Large-scale Deep Learning Recommendation Models

https://arxiv.org/abs/2104.05158
2021

深層学習推薦モデル（DLRM）は、Facebookの多くのビジネスクリティカルなサービスで使用されており、データセンターのインフラ需要において、唯一最大のAIアプリケーションとなっています。本論文では、大規模なDLRMの高性能な分散トレーニングのためのSW/HW共同設計ソリューションについて説明します。本論文では、PyTorchをベースにした高性能でスケーラブルなソフトウェアスタックを導入し、それを新たな進化を遂げた zion platform と組み合わせています。その結果、最大で12兆個のパラメータを持つ大規模なDLRMを学習することができ、従来のシステムと比較して、解答までの時間を40倍に高速化できることを示しました。これを実現するために、 (i)スケールアウトした専用ネットワークを設計し、高帯域、最適なトポロジー、効率的なトランスポートを提供する (ii)モデルとデータの両方の並列処理をサポートする最適化されたPyTorchベースの学習スタックを実装する (iii)埋め込みテーブルを行と列の次元に沿って階層的に分割し、複数のワーカーに負荷を分散することができるシャーディングアルゴリズムを開発する。 (iv) 完全に決定論的な更新を行うオプティマイザーをサポートする柔軟性を維持しつつ、高性能なコア演算子を追加 (v) 縮小精度通信、マルチレベルメモリ階層（HBM+DDR+SSD）、パイプラインを活用

さらに、本番環境でのロバストで効率的なエンド・ツー・エンドのトレーニングに必要となる、分散データインジェスチョンやその他のサポートサービスを開発し、簡単にコメントしています。

本論文は、以下のような貢献をしています。

実用化された大規模DLRMのエンド・ツー・エンドのトレーニングのために、ハードウェアZionEXトレーニングプラットフォームとPyTorchで実装されたコード化された高性能スケーラブルなトレーニングソフトウェアスタックの両方を含む、最先端のソリューションを共同設計する。
モデルとデータの並列処理を組み合わせて、PyTorchで柔軟な分散学習を可能にします。特に、モデルのパラメータを任意の次元に分割して配置する最適化されたシャーディング手法をサポートします。
高性能な埋め込み演算子と、データ取り込みやその他のサポートサービスを含む完全なトレーニングパイプラインの実装。
エンド・ツー・エンドのトレーニング・スループットとトレーニング・プラットフォームの性能が、実運用ケースにおいて1桁以上向上することを実証。特に、従来の分散型トレーニングソリューションと比較して、トレーニング時間を40倍以上短縮し、128個のGPUで12兆個のパラメータを持つモデルを効率的にトレーニングすることができました。

e4exp / paper_manager_abstract

High-performance, Distributed Training of Large-scale Deep Learning Recommendation Models #367