Open wangqiangneu opened 4 years ago
做transformer LM的model-parallel training。因为bp的时候,gradient需要从顶层逐层回传,这个过程是串行的。文章的做法是,先将这些层分成N个组(每个组在同一个gpu内),每组内还是串行Bp,但是组之间是并行的。怎么做法的并行,就是拿之前时间步的梯度(stale gradient)去bp,而不是拿当前时间步的梯度(因为你要拿当前时间步的梯度,就必须得等前面的组算完),具体可以看下figure 2。
stale gradient
简介
做transformer LM的model-parallel training。因为bp的时候,gradient需要从顶层逐层回传,这个过程是串行的。文章的做法是,先将这些层分成N个组(每个组在同一个gpu内),每组内还是串行Bp,但是组之间是并行的。怎么做法的并行,就是拿之前时间步的梯度(
stale gradient
)去bp,而不是拿当前时间步的梯度(因为你要拿当前时间步的梯度,就必须得等前面的组算完),具体可以看下figure 2。论文信息
总结