knok / arxiv-memo

My arxiv papers memo
0 stars 0 forks source link

NormFormer: Improved Transformer Pretraining with Extra Normalization #158

Open knok opened 3 years ago

knok commented 3 years ago

Sam Shleifer, Jason Weston, Myle Ott

Facebook AI Research

https://arxiv.org/abs/2110.09456

概要

深いtransformerでは上層と下層とで勾配が大きく異なる。これを正規化する構造を持たせることで、パフォーマンスを向上できる。 GPT-3であれば同じperplexityに到達する時間が早くなる。またBERTのようなダウンストリームタスクにfine tuningしたときにも精度があがる(GLUEで平均 1.9%)。 この構造変更によってパラメータが0.4%増えるが、非常に軽微。

実装はfairseqに含まれるとのこと。