Open nogawanogawa opened 2 years ago
AlexNetを皮切りにCNNによる画像認識は2010年代には飛躍的に進歩した。そして、近年ViTの登場によって画像認識は更に進歩する可能性を見せている。 ViTは画像分類のタスクで最初にCNNに対して優位性が示され、さらにViTの亜種によって物体認識、セマンティックセグメンテーション、行動認識など、他のタスクにも応用されるようになった。
ViT自体は優れた成果を示しているが、何がそんなに有効だという明確な理由は証明されていない。従来の常識ではattention機構が成功の要因だと考えられてきた。CNNと比べて主に2点強みが考えられてきた。
ただし、先行研究でこれら2つの特性がなくても高い性能を達成できるが先行研究で示されている。 このように、ViTの進歩がAttentionによるものではなく、何らかの別の要素が大きな要因になっており、それは未だ解明されていない。
attentionの仕組みはViTの成功に不可欠な要素ではないことを示す
論文URL
https://arxiv.org/abs/2201.10801
著者
Guangting Wang, Yucheng Zhao, Chuanxin Tang, Chong Luo, Wenjun Zeng
会議
accepted by AAAI-22
背景
ViT自体は優れた成果を示しているが、何がそんなに有効だという明確な理由は証明されていない。従来の常識ではattention機構が成功の要因だと考えられてきた。CNNと比べて主に2点強みが考えられてきた。
ただし、先行研究でこれら2つの特性がなくても高い性能を達成できるが先行研究で示されている。 このように、ViTの進歩がAttentionによるものではなく、何らかの別の要素が大きな要因になっており、それは未だ解明されていない。
目的
アプローチ