Open wangqiangneu opened 5 years ago
分析layer normalization的. 主要是通过大量任务,经验性的发现。
gain
bias
forward normalization
mean
variance
deeper network
LN-simple
AdaLN
design AdaLN
不知道跟[Root Mean Square Layer Normalization]这篇加起来会怎么样 :)
谢谢提醒~之前不知道这篇。我刚才看了一下,参见#37
简介
分析layer normalization的. 主要是通过大量任务,经验性的发现。
gain
和bias
没啥用,直接去掉也能行(尤其是在小数据集上)forward normalization
也不是LN成功的关键mean
和variance
的偏导才是LN好使的关键,尤其是deeper network
论文信息
总结
LN-simple
的实验我也做过,包括AdaLN
的想法我也试过,但是当时一直没法训练,训一会就发散了。文章里对design AdaLN
那块的分析,是值得学习的,没别人做的那么深入呢