PaPaPaPatrick / NN

0 stars 0 forks source link

Layer Norm #19

Closed PaPaPaPatrick closed 1 year ago

PaPaPaPatrick commented 1 year ago

https://zhuanlan.zhihu.com/p/54530247 模型优化之Layer Normalization BN并不适用于RNN等动态网络和batchsize较小的时候效果不好。Layer Normalization(LN)[1]的提出有效的解决BN的这两个问题。 BN如右侧所示,它是取不同样本的同一个通道的特征做归一化;LN则是如左侧所示,它取的是同一个样本的不同通道做归一化。LN的做法如图1左侧所示:根据样本的特征数做归一化

PaPaPaPatrick commented 1 year ago

https://zhuanlan.zhihu.com/p/33173246 详解深度学习中的Normalization,BN/LN/WN

BN 和 LN 是用输入的特征数据的方差对输入数据进行 scale,而 WN 则是用 神经元的权重的欧氏范式对输入数据进行 scale。虽然在原始方法中分别进行的是特征数据规范化和参数的规范化,但本质上都实现了对数据的规范化,只是用于 scale 的参数来源不同。

最后总结了NORM为何有用,感觉说得还是挺好的。