nariaki3551 / library

Stock of papers and articles to read
1 stars 0 forks source link

SHArP: Scalable Hierarchical Aggregation and Reduction Protocol #91

Open nariaki3551 opened 10 months ago

nariaki3551 commented 10 months ago
v3.4.0 Device Capabilities and limitations
NVIDIA Quantum Supports both SHARP low latency and streaming aggregation operationsSupports up to 126 aggregation trees in the subnet (63 low latency trees, and 63 streaming aggregation trees)Note: The number of SHARP streaming aggregation operations is limited to one active tree per switch
NVIDIA Quantum-2 Supports both SHARP low latency and streaming aggregation operationsSupports up to 1023 aggregation trees in the subnet (511 low latency trees, and 511 streaming aggregation trees)Note: Multiple SHARP streaming aggregation operations can be operated in parallel by a single Quantum-2 switch. The limit is one active tree per port
ConnectX-5 Supports SHARP low latency operation only
ConnectX-6 and above Supports both SHARP low latency and streaming aggregation operations
nariaki3551 commented 10 months ago

--

nariaki3551 commented 10 months ago

第 3 世代 NVSwitch

新しい第 3 世代の NVSwitch テクノロジには、ノードの内側と外側の両方に存在するスイッチがあり、サーバー、クラスター、およびデータ センター環境において複数の GPU を接続します。ノード内の各第 3 世代 NVSwitch は、第 4 世代 NVLink リンクを 64 ポート備え、マルチ GPU の接続を加速させることができます。スイッチの総スループットは、前世代の 7.2 Tbits/sec から 13.6 Tbits/sec に向上しています。

新しい第 3 世代の NVSwitch は、マルチキャストと NVIDIA SHARP ネットワーク内リダクションによる集合演算のハードウェア アクセラレーションも提供します。高速化されたコレクティブには、write broadcast (all_gather) 、reduce_scatter、broadcast atomics が含まれます。ファブリック内マルチキャストとリダクションにより、A100 で NVIDIA 集合通信ライブラリ (NCCL) を使用した場合と比較して、小さいブロック サイズのコレクティブでレイテンシを大幅に削減しながら最大 2 倍のスループット向上を実現します。NVSwitch によるコレクティブの加速により、集合通信のための SM の負荷が大幅に軽減されます。

"NVIDIA Hopper アーキテクチャの徹底解説." NVIDIA 技術ブログ, 29 June 2022, developer.nvidia.com/ja-jp/blog/nvidia-hopper-architecture-in-depth.

nariaki3551 commented 10 months ago

https://www.google.com/search?q=SHArP+NVIDIA+usage&sca_esv=558984878&sxsrf=AB5stBjzK2tBL1GCIUNTe25DXlHeDGLx-A%3A1692686035279&ei=01bkZMLIEMXb2roPus2bkAU&ved=0ahUKEwiC_uTu0u-AAxXFrVYBHbrmBlIQ4dUDCA8&uact=5&oq=SHArP+NVIDIA+usage&gs_lp=Egxnd3Mtd2l6LXNlcnAiElNIQXJQIE5WSURJQSB1c2FnZTIFEAAYogQyBRAAGKIESKUXUMgFWK4WcAJ4AZABAJgBeqAB2QWqAQMzLjS4AQPIAQD4AQHCAgoQABhHGNYEGLADwgIEECMYJ8ICBxAjGIoFGCfCAgYQABgFGB7CAgYQABgIGB7CAgQQABgewgIIEAAYCBgEGB7CAgQQIRgV4gMEGAAgQYgGAZAGCg&sclient=gws-wiz-serp#fpstate=ive&vld=cid:c7700409,vid:uzYZP_z_5WE

nariaki3551 commented 10 months ago

https://www.youtube.com/embed/uzYZP_z_5WE

nariaki3551 commented 10 months ago

NVIDIA Quantum-2は、ソフトウェア定義のネットワーキング、In-Network Computingアクセラレーション、RDMA、そして最新のInfiniBand世代に対する優れた進歩を含む最速の速度とフィードを提供している。NVIDIA Quantum-2 InfiniBand は、ネットワーク速度を 400 Gb/秒に倍増し、前世代のネットワークポート数を 3 倍にした。パフォーマンスを3倍高速化し、データセンターのファブリックスイッチの必要性を六分の一に削減することで、データセンターの消費電力を削減し、データセンターのスペースをそれぞれ7%縮小することができる。しかし、利点はポート帯域幅とOPEXだけではない。NVIDIA Quantum-2スイッチには、第3世代のスケーラブルな階層集約/縮小プロトコル(SHARP)が付属している。SHARPv3は、ネットワークを介した小規模および大規模なデータ集約に対して、SHARPv2では2つまでの同時論理ツリーが、SHARPv3では64までに拡張されることにより、実質的に無制限の拡張性を実現し、従来世代と比較して32倍高いAIアクセラレーションパワーを実現する。

これによりさらに、複数のテナントまたは複数の並列アプリケーションが、パフォーマンスの低下なしにインフラストラクチャを共有できるようにするのだ。MPIタグマッチングハードウェアエンジン、および高度な輻輳制御、適応ルーティング、および自己修復ネットワーキングなどの機能は、HPCおよびAIクラスタに重要な機能強化をもたらし、これまで以上に高いレベルのパフォーマンスを実現している。

MPIタグマッチングハードウェアエンジン、および高度な輻輳制御、適応ルーティング、および自己修復ネットワーキングなどの機能は、HPCおよびAIクラスタに重要な機能強化をもたらし、これまで以上に高いレベルのパフォーマンスを実現している。

"» 来るべきAI時代に備えるNVIDIA Quantum-2 InfiniBand Platformの実力とは." 24 Aug. 2023, https://www.hpcwire.jp/archives/57681.

nariaki3551 commented 10 months ago