agatan / paper-reading-notes

読んだ論文の管理とメモ置き場
5 stars 0 forks source link

[WIP] Pay Less Attention with Lightweight and Dynamic Convolutions #18

Open agatan opened 5 years ago

agatan commented 5 years ago

Transformer のような self-attention 機構が流行っていて、性能も良い。 が、すべての timestep について attention を計算するのでコストが高いという問題がある。(timestep ^ 2 の計算が必要なので)