Open knok opened 3 years ago
Biao Zhang, Ivan Titov, Rico Sennrich
https://arxiv.org/abs/2104.07012v1
Transformerで使われる活性化関数をsoftmaxでなくReLUに置き換えてさらにLayer Noramalizatinを加える構造ReLAを提案。 これだけでMTタスクの精度向上を確認できた。 ネガティブアテンションスコアをなくし、スパースなアテンションを実現できる。
Biao Zhang, Ivan Titov, Rico Sennrich
https://arxiv.org/abs/2104.07012v1
概要
Transformerで使われる活性化関数をsoftmaxでなくReLUに置き換えてさらにLayer Noramalizatinを加える構造ReLAを提案。 これだけでMTタスクの精度向上を確認できた。 ネガティブアテンションスコアをなくし、スパースなアテンションを実現できる。