When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

nogawanogawa commented 2 years ago

論文URL

https://arxiv.org/abs/2201.10801

著者

Guangting Wang, Yucheng Zhao, Chuanxin Tang, Chong Luo, Wenjun Zeng

会議

accepted by AAAI-22

背景

ViT自体は優れた成果を示しているが、何がそんなに有効だという明確な理由は証明されていない。従来の常識ではattention機構が成功の要因だと考えられてきた。CNNと比べて主に2点強みが考えられてきた。

CNNと比べて短距離・長距離の依存関係を同時に考慮でき、畳込みの局所演算の制約を取り除く
2つの位置関係の相互作用について固定的なカーネルではなく、動的に関連付けできる

ただし、先行研究でこれら2つの特性がなくても高い性能を達成できるが先行研究で示されている。このように、ViTの進歩がAttentionによるものではなく、何らかの別の要素が大きな要因になっており、それは未だ解明されていない。

目的

アプローチ

ShiftViT
- hoge

nogawanogawa commented 2 years ago

背景

AlexNetを皮切りにCNNによる画像認識は2010年代には飛躍的に進歩した。そして、近年ViTの登場によって画像認識は更に進歩する可能性を見せている。 ViTは画像分類のタスクで最初にCNNに対して優位性が示され、さらにViTの亜種によって物体認識、セマンティックセグメンテーション、行動認識など、他のタスクにも応用されるようになった。

ViT自体は優れた成果を示しているが、何がそんなに有効だという明確な理由は証明されていない。従来の常識ではattention機構が成功の要因だと考えられてきた。CNNと比べて主に2点強みが考えられてきた。

CNNと比べて短距離・長距離の依存関係を同時に考慮でき、畳込みの局所演算の制約を取り除く
2つの位置関係の相互作用について固定的なカーネルではなく、動的に関連付けできる

ただし、先行研究でこれら2つの特性がなくても高い性能を達成できるが先行研究で示されている。このように、ViTの進歩がAttentionによるものではなく、何らかの別の要素が大きな要因になっており、それは未だ解明されていない。

nogawanogawa commented 2 years ago

目的

attentionの仕組みはViTの成功に不可欠な要素ではないことを示す

アプローチ

ShiftViT
- 従来のattention機構をシンプルなシフト演算で置き換え(MetaFormerっぽい?)

nogawanogawa / paper_memo