ここでgated memoryというのは、adaptive gate in highway networks(Srivastava et al., 2015)からアイディアを得て、original memory networks(Weston et al., 2014)にgateを追加したものである。
C^(t):節単位のself-attentionの結果
phraseの中の単語c_iを含む[c1, ... , c{l_s}]
l_s:phraseの長さ
つまり、新たな入力と元のメモリの重要さをメモリを更新しながら決めていく
model
節単位のSelf-Attention
与えられた文脈により変わる単語の意味を最もよく表現できるように多次元attention(Shen et al., 2017)を使う。
about this paper
Author: Wei Wu, Houfeng Wang, Tianyu Liu, Shuming Ma Link: http://aclweb.org/anthology/D18-1408
近年注目を浴びているFully-attention-based modelsは、並列処理がうまくできて訓練時間が劇的に短くなるが、文章が長くなればなるほどメモリーの消費量も一緒に増えてしまうため、1つの文章をphraseにsliceしてattentionかけるモデルを提案する論文。節の中のトークンの文脈的推論をモデルが学習することを目標としている。 プラス:gated memoryを使用することにより、遠くにある文脈依存性と共に単語表現をrefineすることができる。
What are problems they want to solve?
problems
multi head attention(Vaswani et al. 2017)やdirectional self-attention(Shen et al. 2017)のようなFully attention-based modelsが提案され、並列処理による訓練時間の短縮もかなったが
how to solve
C^(t):節単位のself-attentionの結果
model
experiment
dataset
訓練用:SNLI(Bowman et al., 2015)
test:Stanford PCFG Parser 3.5.2(Klein and Manning, 2003)から得られたコーパス
setting
results
conclusion
self-attentionを節単位にかけることにより、距離と関係のないタントをfilterすることができ、意味的に構文論的に重要な単語にだけ集中させることができた。 gated memoryにより、parse treeによる異なるレベルの文脈情報をつかみ出すことに成功した。
code