nogawanogawa / paper_memo

4 stars 0 forks source link

When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism #31

Open nogawanogawa opened 2 years ago

nogawanogawa commented 2 years ago

論文URL

https://arxiv.org/abs/2201.10801

著者

Guangting Wang, Yucheng Zhao, Chuanxin Tang, Chong Luo, Wenjun Zeng

会議

accepted by AAAI-22

背景

ViT自体は優れた成果を示しているが、何がそんなに有効だという明確な理由は証明されていない。従来の常識ではattention機構が成功の要因だと考えられてきた。CNNと比べて主に2点強みが考えられてきた。

ただし、先行研究でこれら2つの特性がなくても高い性能を達成できるが先行研究で示されている。 このように、ViTの進歩がAttentionによるものではなく、何らかの別の要素が大きな要因になっており、それは未だ解明されていない。

目的

アプローチ

nogawanogawa commented 2 years ago

背景

AlexNetを皮切りにCNNによる画像認識は2010年代には飛躍的に進歩した。そして、近年ViTの登場によって画像認識は更に進歩する可能性を見せている。 ViTは画像分類のタスクで最初にCNNに対して優位性が示され、さらにViTの亜種によって物体認識、セマンティックセグメンテーション、行動認識など、他のタスクにも応用されるようになった。

ViT自体は優れた成果を示しているが、何がそんなに有効だという明確な理由は証明されていない。従来の常識ではattention機構が成功の要因だと考えられてきた。CNNと比べて主に2点強みが考えられてきた。

ただし、先行研究でこれら2つの特性がなくても高い性能を達成できるが先行研究で示されている。 このように、ViTの進歩がAttentionによるものではなく、何らかの別の要素が大きな要因になっており、それは未だ解明されていない。

nogawanogawa commented 2 years ago

目的

attentionの仕組みはViTの成功に不可欠な要素ではないことを示す

アプローチ