wangqiangneu / MT-PaperReading

Record my paper reading about Machine Translation and other related works.
36 stars 2 forks source link

19-NIPS-Ouroboros: On Accelerating Training of Transformer-Based Language Models #46

Open wangqiangneu opened 4 years ago

wangqiangneu commented 4 years ago

简介

做transformer LM的model-parallel training。因为bp的时候,gradient需要从顶层逐层回传,这个过程是串行的。文章的做法是,先将这些层分成N个组(每个组在同一个gpu内),每组内还是串行Bp,但是组之间是并行的。怎么做法的并行,就是拿之前时间步的梯度(stale gradient)去bp,而不是拿当前时间步的梯度(因为你要拿当前时间步的梯度,就必须得等前面的组算完),具体可以看下figure 2。

论文信息

总结