Open utterances-bot opened 1 year ago
你好,我看到有的文章中提到“混合精度训练,更新梯度时,用的是float32”,所以每个模型可训练参数占用 20 Byte的显存,不知道哪个是对的?
非常棒的文章,请问ZeRO-Infinity 是没写完吗?
ZeRO-Infinity更新完了,家祭无忘告乃翁
你好,这个写的实在是太棒了。 有个问题想请教一下,比如我想训练7.5B的LLM,正常显存占用是7.5*16=120G。 那么我用ZeRO stage2优化之后,2张A100-80G是160G>120G,理论上是不会OOM的,但是却出现了。 然后我offloading optimizer之后才行。难道是AllReduce导致的,也就是说没有offload的ZeRO在显存上没有优化? btw,ZeRO的stage 1和2的训练效率应该是一样的,好像stage 1没什么用。
DeepSpeed之ZeRO系列:将显存优化进行到底 | Yet Another Blog
前言 目前训练超大规模语言模型主要有两条技术路线:TPU + XLA + TensorFlow/JAX 和 GPU + PyTorch + Megatron-LM + DeepSpeed。前者由Google主导,由于TPU和自家云平台GCP深度绑定,对于非Googler来说, 只可远观而不可把玩,后者背后则有NVIDIA、Meta、MS大厂加持,社区氛围活跃,也更受到群众欢迎。 上面提到的DeepSpeed的核心是ZeRO(Zero Redundancy Op
https://basicv8vc.github.io/posts/zero/