概要

深いtransformerでは上層と下層とで勾配が大きく異なる。これを正規化する構造を持たせることで、パフォーマンスを向上できる。 GPT-3であれば同じperplexityに到達する時間が早くなる。またBERTのようなダウンストリームタスクにfine tuningしたときにも精度があがる(GLUEで平均 1.9%)。この構造変更によってパラメータが0.4%増えるが、非常に軽微。

実装はfairseqに含まれるとのこと。

knok / arxiv-memo

NormFormer: Improved Transformer Pretraining with Extra Normalization #158

概要