about this paper

Author: Wei Wu, Houfeng Wang, Tianyu Liu, Shuming Ma Link: http://aclweb.org/anthology/D18-1408

近年注目を浴びているFully-attention-based modelsは、並列処理がうまくできて訓練時間が劇的に短くなるが、文章が長くなればなるほどメモリーの消費量も一緒に増えてしまうため、１つの文章をphraseにsliceしてattentionかけるモデルを提案する論文。節の中のトークンの文脈的推論をモデルが学習することを目標としている。プラス：gated memoryを使用することにより、遠くにある文脈依存性と共に単語表現をrefineすることができる。

What are problems they want to solve?

problems

multi head attention(Vaswani et al. 2017)やdirectional self-attention(Shen et al. 2017)のようなFully attention-based modelsが提案され、並列処理による訓練時間の短縮もかなったが

文章の長さに比例し、トークンに与えられるscoreをstoreするメモリーが二次的に増加してしまう。
さらに、固有な構文論的性質も考慮されていない。
how to solve
文章単位ではなく節単位でアテンションをかける手法を提案する。
- 節の数であるTはハイパーパラメータである。
parse treeに基づいた構文論的情報を、gated memoryを使用してモデルに統合させる。

ここでgated memoryというのは、adaptive gate in highway networks(Srivastava et al., 2015)からアイディアを得て、original memory networks(Weston et al., 2014)にgateを追加したものである。

C^(t)：節単位のself-attentionの結果

phraseの中の単語c_iを含む[c1, ... , c{l_s}]
l_s：phraseの長さ
- つまり、新たな入力と元のメモリの重要さをメモリを更新しながら決めていく
  model
- 節単位のSelf-Attention
- 与えられた文脈により変わる単語の意味を最もよく表現できるように多次元attention(Shen et al., 2017)を使う。
- P：phraseであり[p_1, ... , p_l]のようなエンベディング表現である。
- lは節の数である。
- トークン双にscoreを付与するため以下の計算を行う。

* W^{a1}, W^{a2}, b^aは学習すべきパラメータである。
* Mは自分自身がscoreを付与しないようにするために(単位行列になることを防ぐ)設けるマスク。
* attentionの結果は以下のような重みの和で表される。

* ここで注意すべき点は、多次元attentionであるためトークン双はスカラーではなくベクトルであることである。

Gated Memory Updating
- 表現力とパラメーター減少のため、追加されたgateのパラメーターの更新は別のレイヤーのなかで共有される。
Sentence Summarization
- この段階でself-attentionは、文章全体の単語の文脈依存性が捉えられるようになる。

* W^g, W^m, b^g, b^mは学習されるべきパラメーターである。

この処理が終わると、refineされた文脈が推論できる文章表現は固定長のベクトルの形になる。
experiment

dataset

訓練用：SNLI(Bowman et al., 2015)
人がアノテーションした570kの文章双があり、文章間の意味関係に関する理由も含まれている。
ラベル：Entailment, Contradiction, Neutral
premiseとhypothesisはsiamese architecture(Bromley et al., 1993)のものにそれぞれ沿っている。
文章双は以下の形をしている。

  * v^p, v^h：固定長のベクトル表現
* v^{inp}はfeed-forward networkとsoftmax(分類のため)に入力される。

test：Stanford PCFG Parser 3.5.2(Klein and Manning, 2003)から得られたコーパス

訓練次と同じパラメーターを使う。
setting
- 活性化関数：別に指定されていない場合は、ELU(Clevert et al., 2015)
- GloVe：300次元
- 未知語：128個のランダムエンベディングで初期化
- 隠れ層：300次元
- ミニバッチ：16
- T：3
- 最適化：Adadelta
- 学習率：0.75
- dropout：0.5
- 全てのパラメーター：Glorot normal initialization
- L2正規化の重み崩壊因子：5e-5
- evaluation pipeline：SentEval toolkit
比較のためConneau et al. (2017)のツールを使用。
results

PSANは、長さが14-20の文章よりいい性能を見せた。
メモリ消費量を20%減らすことができた(Table 5)。
conclusion

self-attentionを節単位にかけることにより、距離と関係のないタントをfilterすることができ、意味的に構文論的に重要な単語にだけ集中させることができた。 gated memoryにより、parse treeによる異なるレベルの文脈情報をつかみ出すことに成功した。

code

magicpieh28 / Paper-Summary

Phrase-level Self-Attention Networks for Universal Sentence Encoding(2018) #9

about this paper

What are problems they want to solve?

problems

how to solve

model

experiment

dataset

setting

results

conclusion

code