19-NIPS-Root Mean Square Layer Normalization

简介

和#36类似，也是对现有layer normalization的改进 + 一大堆任务宣称有效的套路。实际做的是将$LayerNorm(x) = g\frac{x-u}{v}+b, u=mean(x), v=std(x)$ 改为 $RMSNorm(x)=g\frac{x}{rms(x)}+b, rms(x)=\sqrt{\frac{1}{N}*\sum{x_i^2}}$。也就是把layer normalization里的跟mean相关的项给去掉了，文章也宣称这种re-center的特性实际是没啥用的。而使用RMS的方式，能够保留re-scale的特性

有意思的点
- 结合#36，#36说g, b没啥用，并且forward normalization没啥用，是反向的normalization起到了帮助，这篇又说mean没啥用，只用RMS就够了。两者结合一下，最简单的形式就变成$\frac{x}{rms(x)}$了不是...

论文信息

Author: Edinburgh
Paper
Code

总结

虽然这篇的切入是以LN会影响速度，我觉得怪怪的，在Transformer上也确实没啥特别大的帮助（当然，理论上计算量肯定是变少了，但这块确实不是热点），但分析LN只保留re-scale的特性就够了，这个是很大的价值
结合#36，我觉得Normalization好使的关键就是在gradient中起到re-scale的作用，当weight大的时候，gradient相应的变小一点

wangqiangneu / MT-PaperReading

19-NIPS-Root Mean Square Layer Normalization #37

简介

论文信息

总结