kacky24 / papers

my publications and short summaries of papers I have read
3 stars 1 forks source link

Exploring the Limits of Language Modeling #35

Closed kacky24 closed 5 years ago

kacky24 commented 6 years ago

summary

ある程度大規模なデータセット(One Billion Word Benchmark dataset)に焦点を当てて、Language Modelingを調査・まとめた論文(RNNベース)。 単一モデル、アンサンブルモデルそれぞれでSOTA。

2018-10-08 5 20 49

softmax近似

語彙数が多い時、softmaxの全embedingとcontext vectorの内積の計算コストが非常に高い。 そのため、Noise Contrastive Estimation(NCE)、Importance Sampling(IS)を利用する(階層ソフトマックスはこの論文では調べてない)。 NCEとISは繋がりが強く、

ISの方がいいっぽいのでISを用いる。(NCEでは更新が各単語独立だが、ISでは互いに影響を及ぼすから)

CNN softmax

モデルへのinputだけではなく、softmax層にもcnnによるcharacterの埋め込みを利用する。 対象の単語のembeddingを、その都度CNNでcharacterから計算し利用することでパラメータを削減できる。 ただ、そのままだとスペルが似ていて意味が違うものをうまく扱えないため、

2018-10-08 5 14 28

とすることで精度が向上する。

また、out of vocabraryにも容易にスコアリングできるメリットもある。

Char LSTM Predictions

単語の出力の際にLSTMで1つずつcharacterを出力するようにする。 これはうまくいかなかった。

実験結果

2018-10-08 5 22 34

author

Rafal Jozefowicz RAFALJ@GOOGLE.COM Oriol Vinyals VINYALS@GOOGLE.COM Mike Schuster SCHUSTER@GOOGLE.COM Noam Shazeer NOAM@GOOGLE.COM Yonghui Wu YONGHUI@GOOGLE.COM Google Brain

URL

https://arxiv.org/pdf/1602.02410.pdf

year

2016