Open knok opened 3 years ago
Sam Shleifer, Jason Weston, Myle Ott
Facebook AI Research
https://arxiv.org/abs/2110.09456
深いtransformerでは上層と下層とで勾配が大きく異なる。これを正規化する構造を持たせることで、パフォーマンスを向上できる。 GPT-3であれば同じperplexityに到達する時間が早くなる。またBERTのようなダウンストリームタスクにfine tuningしたときにも精度があがる(GLUEで平均 1.9%)。 この構造変更によってパラメータが0.4%増えるが、非常に軽微。
実装はfairseqに含まれるとのこと。
Sam Shleifer, Jason Weston, Myle Ott
Facebook AI Research
https://arxiv.org/abs/2110.09456
概要
深いtransformerでは上層と下層とで勾配が大きく異なる。これを正規化する構造を持たせることで、パフォーマンスを向上できる。 GPT-3であれば同じperplexityに到達する時間が早くなる。またBERTのようなダウンストリームタスクにfine tuningしたときにも精度があがる(GLUEで平均 1.9%)。 この構造変更によってパラメータが0.4%増えるが、非常に軽微。
実装はfairseqに含まれるとのこと。