kacky24 / papers

my publications and short summaries of papers I have read
3 stars 1 forks source link

Language Models with Transformers #53

Open kacky24 opened 5 years ago

kacky24 commented 5 years ago

short summary

transformerベースのアーキテクチャ(BERT、GPT)に対して、LSTM層の追加と、構造の自動探索を行うことで、LSTMベースの中でのSOTAにperplexityで12pt改善したという研究。

スクリーンショット 2019-04-29 17 45 22

LSTMの追加

language modelingでは、次の単語を予測するのに、強い文脈情報が必要であるが、transformerでは、そこが曖昧。 → LSTM層を加える(AddLSTM)

ファインチューニング

WikiTextやPenn Tree Bankのようなデータセットは、そこまでサイズが大きくないので、transformerの全層を更新するのは過学習に繋がる。 → ランダムに層を選択して、固定する。(FixSubset)

CAS( Coordinate Architecture Search)

ベースのtransformerモデルに対して、AddLinear, AddLSTM, FixSubsetをランダムに、AddLinearが出るまで実行する。(AddLinearは最終層の追加) → 構造の候補を生成 これで生成したものを学習・比較し、最も良いものを最適構造とする。

スクリーンショット 2019-04-29 18 36 51

結果

既存のLSTMベースのLMより大幅にいい結果

スクリーンショット 2019-04-29 18 40 49

GPT2に対して、学習に要するデータ数が少ないのに匹敵する結果。

スクリーンショット 2019-04-29 18 54 13

author

Chenguang Wang Mu Li Alexander J. Smola Amazon Web Services {chgwang, mli, smola}@amazon.com

URL

https://arxiv.org/abs/1904.09408

year

2019