knok / arxiv-memo

My arxiv papers memo
0 stars 0 forks source link

Sparse Attention with Linear Units #80

Open knok opened 3 years ago

knok commented 3 years ago

Biao Zhang, Ivan Titov, Rico Sennrich

https://arxiv.org/abs/2104.07012v1

概要

Transformerで使われる活性化関数をsoftmaxでなくReLUに置き換えてさらにLayer Noramalizatinを加える構造ReLAを提案。 image これだけでMTタスクの精度向上を確認できた。 ネガティブアテンションスコアをなくし、スパースなアテンションを実現できる。 image