Biao Zhang, Ivan Titov, Rico Sennrich

概要

Transformerで使われる活性化関数をsoftmaxでなくReLUに置き換えてさらにLayer Noramalizatinを加える構造ReLAを提案。これだけでMTタスクの精度向上を確認できた。ネガティブアテンションスコアをなくし、スパースなアテンションを実現できる。

knok / arxiv-memo