19-NIPS-Understanding and Improving Layer Normalization - Githubissues

wangqiangneu / MT-PaperReading

Record my paper reading about Machine Translation and other related works.

36 stars 2 forks source link

19-NIPS-Understanding and Improving Layer Normalization #36

Open wangqiangneu opened 5 years ago

wangqiangneu commented 5 years ago

简介

分析layer normalization的. 主要是通过大量任务，经验性的发现。

有意思的点
- gain 和 bias没啥用，直接去掉也能行（尤其是在小数据集上）
- forward normalization也不是LN成功的关键
- mean和variance的偏导才是LN好使的关键，尤其是deeper network

论文信息

Author: PKU
Paper

总结

感觉写的挺简单的，设计的比较巧妙吧
LN-simple的实验我也做过，包括AdaLN的想法我也试过，但是当时一直没法训练，训一会就发散了。文章里对design AdaLN那块的分析，是值得学习的，没别人做的那么深入呢

yokusama commented 5 years ago

不知道跟[Root Mean Square Layer Normalization]这篇加起来会怎么样 :)

wangqiangneu commented 4 years ago

不知道跟[Root Mean Square Layer Normalization]这篇加起来会怎么样 :)

谢谢提醒~之前不知道这篇。我刚才看了一下，参见#37