19-EMNLP-Improving Deep Transformer with Depth-Scaled Initialization and Merged Attention

简介

训练deep Transformer. 是在post-norm方式的基础上，通过改变参数初始化的方式实现的。Vanilla Transformer的参数(e.g. Linear Layer)初始化是$U(-r, r), r=\sqrt \frac{6}{f{in}+f{out}}$，现在改为$r'=\frac{r}{\sqrt{l}}$, l是当前层的层数，这样高层的输出variance会减小，不容易发生gradient vanishing.

论文信息

Author: Edinburgh
Paper
Code

总结

感觉数学上的分析还不是很透彻呢，没讲清楚为啥这么scale一下就好使了
把AAN和enc2dec attention合并成一个网络，听起来ok，不过deep decoder似乎也没有必要呀，不知道这个merged attention在浅层的decoder上表现如何？

wangqiangneu / MT-PaperReading

19-EMNLP-Improving Deep Transformer with Depth-Scaled Initialization and Merged Attention #2

简介

论文信息

总结