houminz / paper-reading

Paper Reading:涉及分布式、虚拟化、网络、机器学习
https://houmin.cc/papers
22 stars 0 forks source link

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism #19

Open houminz opened 11 months ago

houminz commented 11 months ago

Paper:

Reading by 李沐:

Github:

Blog:

Slide from NVIDIA:

houminz commented 11 months ago

对显存的挑战。即使是最大的GPU的主内存也不可能适合这些模型的参数,比如一个175B的GPT-3模型需要(175B * 4bytes)就是700GB模型参数空间,从而梯度也是700G,优化器状态是1400G,一共2.8TB。

需要从算法角度理解为什么 175B 的 GPT-3 需要 2.8TB 的内存,是如何计算的?

houminz commented 11 months ago

数据并行扩展通常效果很好,但有两个限制: a)超过某一个点之后,每个GPU的batch size变得太小,这降低了GPU的利用率,增加了通信成本; b)可使用的最大设备数就是batch size,着限制了可用于训练的加速器数量。

这两个限制是为啥?