Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context, ACL2018 - Githubissues

fujiso / papers

NLP/Deep Learning関連の論文まとめ

4 stars 0 forks source link

Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context, ACL2018 #2

Open fujiso opened 6 years ago

fujiso commented 6 years ago

概要

RNNのコンテキスト情報には，過去何単語くらいの情報が入っているのか調査した論文．単純なLSTMを対象にしている．

だいたい過去200語まで参照しており，特に直近50語は強い．
低頻度語や内容語はより長いコンテキストを参照する
直近50語に関しては語順を見れているが，それ以前のものはあまり語順が関係ない．

neural caching model(Grave et al.)が長距離文脈にいいらしい．

著者

Urvashi Khandelwal, He He, Peng Qi, Dan Jurafsky
Stanford University

リンク

論文： https://arxiv.org/abs/1805.04623
コード：https://github.com/urvashik/lm-context-analysis

手法

コンテキスト情報を保持している = 入力から欠けると出力に影響する
と仮定して実験する．例えば，t番目の単語をw_tとし，次の二つの負の対数尤度を比較する．

w_t-1, ..., w_1を入力して予測する場合
w_t-1,...,w_t-nを入力して予測する場合(つまり, 直近n単語まで見る場合)

もし，二つの尤度が同じ場合，w_1,..., w_t-nまでの単語のコンテキスト情報は入っていないといえる．

語順の影響を調べる際は，w{t-s1-1},..., w{t-s2}の範囲の単語列をシャッフルする． s1=k , s2=k+20とすれば，局所的なコンテキストの変化の影響が見られるし，
s1=k, s2=nとすれば，どこからコンテキストの影響が強くなるのかを見られる．

Future work

今回はトークンレベルの調査だったので，文レベルの調査も行いたい．

Related

improving neural language models with a continuous cache, ICLR2017 https://arxiv.org/abs/1612.04426