Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

houminz / paper-reading

Paper Reading：涉及分布式、虚拟化、网络、机器学习

https://houmin.cc/papers

22 stars 0 forks source link

Open houminz opened 11 months ago

houminz commented 11 months ago

Paper:

Reading by 李沐：

Github:

Blog:

Slide from NVIDIA:

houminz commented 11 months ago

对显存的挑战。即使是最大的GPU的主内存也不可能适合这些模型的参数，比如一个175B的GPT-3模型需要（175B * 4bytes）就是700GB模型参数空间，从而梯度也是700G，优化器状态是1400G，一共2.8TB。

需要从算法角度理解为什么 175B 的 GPT-3 需要 2.8TB 的内存，是如何计算的？

houminz commented 11 months ago

数据并行扩展通常效果很好，但有两个限制： a）超过某一个点之后，每个GPU的batch size变得太小，这降低了GPU的利用率，增加了通信成本； b）可使用的最大设备数就是batch size，着限制了可用于训练的加速器数量。

这两个限制是为啥？