Open fujiso opened 6 years ago
RNNのコンテキスト情報には,過去何単語くらいの情報が入っているのか調査した論文. 単純なLSTMを対象にしている.
neural caching model(Grave et al.)が長距離文脈にいいらしい.
Urvashi Khandelwal, He He, Peng Qi, Dan Jurafsky Stanford University
論文: https://arxiv.org/abs/1805.04623 コード:https://github.com/urvashik/lm-context-analysis
コンテキスト情報を保持している = 入力から欠けると出力に影響する と仮定して実験する. 例えば,t番目の単語をw_tとし,次の二つの負の対数尤度を比較する.
もし,二つの尤度が同じ場合,w_1,..., w_t-nまでの単語のコンテキスト情報は入っていないといえる.
語順の影響を調べる際は,w{t-s1-1},..., w{t-s2}の範囲の単語列をシャッフルする. s1=k , s2=k+20とすれば,局所的なコンテキストの変化の影響が見られるし, s1=k, s2=nとすれば,どこからコンテキストの影響が強くなるのかを見られる.
今回はトークンレベルの調査だったので,文レベルの調査も行いたい.
improving neural language models with a continuous cache, ICLR2017 https://arxiv.org/abs/1612.04426
概要
RNNのコンテキスト情報には,過去何単語くらいの情報が入っているのか調査した論文. 単純なLSTMを対象にしている.
neural caching model(Grave et al.)が長距離文脈にいいらしい.
著者
Urvashi Khandelwal, He He, Peng Qi, Dan Jurafsky
Stanford University
リンク
論文: https://arxiv.org/abs/1805.04623
コード:https://github.com/urvashik/lm-context-analysis
手法
コンテキスト情報を保持している = 入力から欠けると出力に影響する
と仮定して実験する. 例えば,t番目の単語をw_tとし,次の二つの負の対数尤度を比較する.
もし,二つの尤度が同じ場合,w_1,..., w_t-nまでの単語のコンテキスト情報は入っていないといえる.
語順の影響を調べる際は,w{t-s1-1},..., w{t-s2}の範囲の単語列をシャッフルする. s1=k , s2=k+20とすれば,局所的なコンテキストの変化の影響が見られるし,
s1=k, s2=nとすれば,どこからコンテキストの影響が強くなるのかを見られる.
Future work
今回はトークンレベルの調査だったので,文レベルの調査も行いたい.
Related
improving neural language models with a continuous cache, ICLR2017 https://arxiv.org/abs/1612.04426