Qiyuan-Z / gitalk

gitalk comment
0 stars 0 forks source link

如何使用PyTorch分布式训练 | Yuan #55

Open Qiyuan-Z opened 2 years ago

Qiyuan-Z commented 2 years ago

https://qiyuan-z.github.io/2022/01/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8Pytorch%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%AD%E7%BB%83/

DDPDDP是PyTorch中的一个库,它支持跨多个设备的梯度同步。这意味着您可以通过跨多个GPU并行处理,线性地加快模型训练。DDP的工作原理是为每个GPU创建一个单独的Python进程,每个进程都使用一个不重叠的数据子集。 比起DP来,DDP训练速度更快,显卡负载也更为均衡。目前官方开发者推荐使用DDP代替DP,DP很少维护了,导致有许多bug。比如:nn.ParameterList和nn.P