Exploring the Limits of Language Modeling

summary

ある程度大規模なデータセット（One Billion Word Benchmark dataset）に焦点を当てて、Language Modelingを調査・まとめた論文（RNNベース）。単一モデル、アンサンブルモデルそれぞれでSOTA。

softmax近似

語彙数が多い時、softmaxの全embedingとcontext vectorの内積の計算コストが非常に高い。そのため、Noise Contrastive Estimation(NCE)、Importance Sampling(IS)を利用する（階層ソフトマックスはこの論文では調べてない）。 NCEとISは繋がりが強く、

NCE: true words or noise wordsの２クラス分類タスクを、logistic lossをロスとして解くことで近似。
IS: 多クラス分類タスクを、softmax & cross entropyで解くことで近似。

ISの方がいいっぽいのでISを用いる。（NCEでは更新が各単語独立だが、ISでは互いに影響を及ぼすから）

CNN softmax

モデルへのinputだけではなく、softmax層にもcnnによるcharacterの埋め込みを利用する。対象の単語のembeddingを、その都度CNNでcharacterから計算し利用することでパラメータを削減できる。ただ、そのままだとスペルが似ていて意味が違うものをうまく扱えないため、

とすることで精度が向上する。

また、out of vocabraryにも容易にスコアリングできるメリットもある。

Char LSTM Predictions

単語の出力の際にLSTMで1つずつcharacterを出力するようにする。これはうまくいかなかった。

実験結果

データセットが大きく複雑な場合LSTMのサイズの大きさは非常に大事。
小さいLSTMを使ってもoverfitするのでregularization (dropout) 大事。小さめのLSTM(<4096unit)では0.1、大きいのでは0.25
ISの方がNCEより効率的
character CNNをインプットに使うことでfixed vocabraryに縛られることなく、またパラメータ数を大きく削減できるが、精度は落ちない。（ベストのモデルはCharacter CNN使ってる）
CNN softmaxを使うことでパラメータ数は大きく削減できるが精度は落ちる。
先行研究では、N-gramによるモデルやN-gramの特徴量をRNNに入れてアンサンブルすることで精度を大きくあげていたが、この論文のモデルではN-gram系とのアンサンブルの効果はあるが小さく、しっかりと学習したLSTM LM with ISは十分にcompetitive。

author

Rafal Jozefowicz RAFALJ@GOOGLE.COM Oriol Vinyals VINYALS@GOOGLE.COM Mike Schuster SCHUSTER@GOOGLE.COM Noam Shazeer NOAM@GOOGLE.COM Yonghui Wu YONGHUI@GOOGLE.COM Google Brain

URL

https://arxiv.org/pdf/1602.02410.pdf

year

2016

kacky24 / papers