Open houminz opened 11 months ago
对显存的挑战。即使是最大的GPU的主内存也不可能适合这些模型的参数,比如一个175B的GPT-3模型需要(175B * 4bytes)就是700GB模型参数空间,从而梯度也是700G,优化器状态是1400G,一共2.8TB。
需要从算法角度理解为什么 175B 的 GPT-3 需要 2.8TB 的内存,是如何计算的?
数据并行扩展通常效果很好,但有两个限制: a)超过某一个点之后,每个GPU的batch size变得太小,这降低了GPU的利用率,增加了通信成本; b)可使用的最大设备数就是batch size,着限制了可用于训练的加速器数量。
这两个限制是为啥?
Paper:
Reading by 李沐:
Github:
Blog:
Slide from NVIDIA: