liguodongiot / llm-action

本项目旨在分享大模型相关技术原理以及实战经验。
https://www.zhihu.com/column/c_1456193767213043713
Apache License 2.0
9.1k stars 885 forks source link

关于分布式并行训练 #7

Closed Statisticss closed 7 months ago

Statisticss commented 1 year ago

请教一下,我理解目前的Megatron+DeepSpeed是张量并行+数据并行,那有没有张量、数据、流水线三者一起并行的训练框架?

liguodongiot commented 1 year ago

@Statisticss Megatron、Megatron-DeepSpeed、Colossal-AI、PaddlePaddle等AI框架都支持。用得比较多的是Megatron、Megatron-DeepSpeed。