Open yiskw713 opened 2 years ago
TransformerはO(N^2 d)と,シーケンス長が長くなればなるほど計算量が多くなるという問題がある. そこで本研究では,pair-wiseの計算ではなく,additive attentionによるglobal contextを用いることで,計算量をO(Nd)に抑えつつ,従来法に匹敵するか,それ以上の結果を残した
概要
TransformerはO(N^2 d)と,シーケンス長が長くなればなるほど計算量が多くなるという問題がある.
そこで本研究では,pair-wiseの計算ではなく,additive attentionによるglobal contextを用いることで,計算量をO(Nd)に抑えつつ,従来法に匹敵するか,それ以上の結果を残した
Reference
link