magicpieh28 / Paper-Summary

1 stars 0 forks source link

Phrase-level Self-Attention Networks for Universal Sentence Encoding(2018) #9

Open magicpieh28 opened 5 years ago

magicpieh28 commented 5 years ago

about this paper

Author: Wei Wu, Houfeng Wang, Tianyu Liu, Shuming Ma Link: http://aclweb.org/anthology/D18-1408

近年注目を浴びているFully-attention-based modelsは、並列処理がうまくできて訓練時間が劇的に短くなるが、文章が長くなればなるほどメモリーの消費量も一緒に増えてしまうため、1つの文章をphraseにsliceしてattentionかけるモデルを提案する論文。節の中のトークンの文脈的推論をモデルが学習することを目標としている。 プラス:gated memoryを使用することにより、遠くにある文脈依存性と共に単語表現をrefineすることができる。

What are problems they want to solve?

problems

multi head attention(Vaswani et al. 2017)やdirectional self-attention(Shen et al. 2017)のようなFully attention-based modelsが提案され、並列処理による訓練時間の短縮もかなったが

image

image

C^(t):節単位のself-attentionの結果

image

* W^{a1}, W^{a2}, b^aは学習すべきパラメータである。
* Mは自分自身がscoreを付与しないようにするために(単位行列になることを防ぐ)設けるマスク。
* attentionの結果は以下のような重みの和で表される。

image

* ここで注意すべき点は、多次元attentionであるためトークン双はスカラーではなくベクトルであることである。

image

* W^g, W^m, b^g, b^mは学習されるべきパラメーターである。

image

  * v^p, v^h:固定長のベクトル表現
* v^{inp}はfeed-forward networkとsoftmax(分類のため)に入力される。

test:Stanford PCFG Parser 3.5.2(Klein and Manning, 2003)から得られたコーパス

image

image

image

image

image

image