yiskw713 / paper_summary

Write summaries of papers I've read in Japanese
10 stars 1 forks source link

Fastformer: Additive Attention Can Be All You Need #175

Open yiskw713 opened 2 years ago

yiskw713 commented 2 years ago

概要

image

TransformerはO(N^2 d)と,シーケンス長が長くなればなるほど計算量が多くなるという問題がある.
そこで本研究では,pair-wiseの計算ではなく,additive attentionによるglobal contextを用いることで,計算量をO(N
d)に抑えつつ,従来法に匹敵するか,それ以上の結果を残した

Reference

link