Language Models with Transformers

short summary

transformerベースのアーキテクチャ（BERT、GPT）に対して、LSTM層の追加と、構造の自動探索を行うことで、LSTMベースの中でのSOTAにperplexityで12pt改善したという研究。

language modelingでは、次の単語を予測するのに、強い文脈情報が必要であるが、transformerでは、そこが曖昧。 → LSTM層を加える（AddLSTM）

WikiTextやPenn Tree Bankのようなデータセットは、そこまでサイズが大きくないので、transformerの全層を更新するのは過学習に繋がる。 → ランダムに層を選択して、固定する。（FixSubset）

ベースのtransformerモデルに対して、AddLinear, AddLSTM, FixSubsetをランダムに、AddLinearが出るまで実行する。（AddLinearは最終層の追加） → 構造の候補を生成これで生成したものを学習・比較し、最も良いものを最適構造とする。

既存のLSTMベースのLMより大幅にいい結果

GPT2に対して、学習に要するデータ数が少ないのに匹敵する結果。

Chenguang Wang Mu Li Alexander J. Smola Amazon Web Services {chgwang, mli, smola}@amazon.com

2019