Open wangqiangneu opened 4 years ago
和#36类似,也是对现有layer normalization的改进 + 一大堆任务宣称有效的套路。实际做的是将$LayerNorm(x) = g\frac{x-u}{v}+b, u=mean(x), v=std(x)$ 改为 $RMSNorm(x)=g\frac{x}{rms(x)}+b, rms(x)=\sqrt{\frac{1}{N}*\sum{x_i^2}}$。也就是把layer normalization里的跟mean相关的项给去掉了,文章也宣称这种re-center的特性实际是没啥用的。而使用RMS的方式,能够保留re-scale的特性
mean
re-center
re-scale
g
b
forward normalization
normalization
简介
和#36类似,也是对现有layer normalization的改进 + 一大堆任务宣称有效的套路。实际做的是将$LayerNorm(x) = g\frac{x-u}{v}+b, u=mean(x), v=std(x)$ 改为 $RMSNorm(x)=g\frac{x}{rms(x)}+b, rms(x)=\sqrt{\frac{1}{N}*\sum{x_i^2}}$。也就是把layer normalization里的跟
mean
相关的项给去掉了,文章也宣称这种re-center
的特性实际是没啥用的。而使用RMS的方式,能够保留re-scale
的特性g
,b
没啥用,并且forward normalization
没啥用,是反向的normalization
起到了帮助,这篇又说mean没啥用,只用RMS就够了。两者结合一下,最简单的形式就变成$\frac{x}{rms(x)}$了不是...论文信息
总结
re-scale
的特性就够了,这个是很大的价值