19-NIPS-Ouroboros: On Accelerating Training of Transformer-Based Language Models

简介

做transformer LM的model-parallel training。因为bp的时候，gradient需要从顶层逐层回传，这个过程是串行的。文章的做法是，先将这些层分成N个组（每个组在同一个gpu内），每组内还是串行Bp，但是组之间是并行的。怎么做法的并行，就是拿之前时间步的梯度（stale gradient）去bp，而不是拿当前时间步的梯度（因为你要拿当前时间步的梯度，就必须得等前面的组算完），具体可以看下figure 2。

论文信息

Author: Duke
Paper
Code 但是里面是空的。。

总结

4gpu只用model-parallel实现了接近2倍的训练速度的加速
还是不会converge analysis，诶。。

wangqiangneu / MT-PaperReading

19-NIPS-Ouroboros: On Accelerating Training of Transformer-Based Language Models #46

简介

论文信息

总结