megvii-research / NAFNet

The state-of-the-art image restoration model without nonlinear activation functions.
Other
2.08k stars 256 forks source link

why layernorm so important? #145

Open YilanWang opened 1 month ago

YilanWang commented 1 month ago

我尝试了巨量其他norm或者差不多的方式,比如bn,nfnet的结构,等等,发现只要替代ln网络全挂了. 但是其他的denoise/sr任务并没有这个现象,比如esrgan系列甚至都可以完全不要norm,太神奇了,不知道两年后作者能不能看到这个问题

hzwer commented 1 month ago

特别深的 transformer 结构,layernorm 可能是最标准的(个人观点)