Open Z-Y00 opened 1 week ago
这个可以结合训练时不同的 parallel 方法来用。比如用 tensor parallelism, GPU 之间的带宽挺重要的。
博主如果想加上更多关于 training 的内容的话,可以参考这里列举的一些 model parallel 方式 https://huggingface.co/docs/transformers/v4.15.0/parallelism#tensor-parallelism
@Z-Y00 谢谢提供的信息。加个微信聊聊?我给你的 outlook.com 邮箱发了我的微信了
读了博主写的 RDMA network,觉得有些点可以再补充一下。 https://github.com/luweizheng/lulaoshi.info/blob/main/src/deep-learning/system/rdma-network.md
Nvidia 推出了专门给 GPU 用的 NVlink,速度和带宽都非常非常可观。 复制粘贴自 nVidia 官网: NVLink is a 1.8TB/s bidirectional, direct GPU-to-GPU interconnect that scales multi-GPU input and output (IO) within a server.
The NVIDIA NVLink Switch chips connect multiple NVLinks to provide all-to-all GPU communication at full NVLink speed within a single rack and between racks.
网上整理的数据, 8个 GPU 之间能做到 7.2TB/s 的带宽(应该是单机内部的通信): source: https://community.fs.com/article/an-overview-of-nvidia-nvlink.html
可以看到,右边用 NVlink + NVswitch 的 H100 比左边用 IB 的 A100,Bisection 带宽多了将近 10倍。