[2021 arxiv] A Survey of Visual Transformers

자세한 내용들은 PPT 파일로 대체하겠습니다.

A Survey of Visual Transformers는, Transformer 논문들의 추이를 살펴본 논문입니다.

ViT 이후로 Transformer에 대해서 이해하려는 많은 시도들이 있었습니다. ViT가 왜 잘 되는지, ViT가 과연 어떻게 작동하는지, ViT와 CNN의 차이점이 무엇인지.. 그리고 ViT가 과연 SOTA인지 등등.. 그러한 내용들에 대해서 잘 정리가 되어 있었던 Survey 논문이라고 생각이 됩니다.

ViT가 잘 되는 이유는 많은 파라미터 때문입니다.

많은 파라미터를 가지고 있지만, 학습과정에서 강제성이 없음. -> Token 들끼리 Global 정보만을 신경 쓰다보니 Token 들끼리 너무 유사해져서 Spatial 정보로부터 Patch를 뽑아야 했습니다 -> Layer의 출력값들이 너무 유사해졌으므로, Layer들간에 서로 다른 출력값을 강제하기 위해서, Loss를 추가해줘야 했습니다 Transformer가 많은 하이퍼 파라미터들을 가지게 되면서 너무 느려졌습니다 -> 하이퍼 파라미터들을 줄이기 위해서 CNN과 Transformer의 Combination을 사용 -> Self Attention에 Spatial Reduction을 사용 -> Tokenize에서 너무 많은 시간을 사용하니까, 2D Convolution을 사용해서 Token을 뽑기. -> Channel을 줄여셔 경량화를 하기 같은 해결법들이 나오게 되었습니다., ViT가 과연 어떻게 작동이 되는지는 DeiT에 잘 정리되어 있는데, CNN에서 학습된 특징정보를 Transformer가 유사하게 재현할 수 있었고, Fine tunning시 오히려 더 좋은 성능을 보여줌으로써, CNN과 Transformer가 엄청 이상하게 학습하는게 아니라는걸 증명했습니다.

ViT와 CNN의 차이점이 무엇인지? CNN과 ViT는 사실 큰 차이가 없습니다. ViT에서 Self-Attention은 사실 매우 큰 크기의 Depth-Wise Convolution이라고 봐도 무방합니다. 그 이유는, ConvNext에서 제안한 것처럼, ViT에서 사용되는 개념들을 CNN에 녹여내게 되면 둘이 비슷한 성능을 보여주게 되거든요.

또한 가장 중요한 부분은, 최근 Transformer관련 논문들의 동향이라고 생각되는데, Transformer 자체에 대해서 분석할 수 있는 논문들, Conv + Transformer로 경량화를 노리는 논문들 엄청 많은 데이터를 사용해서 SoTA를 찍는 논문들, Unsupervised Learning을 사용해서 라벨이 없어도 좋은 Backbone을 만드는 논문들 인 거 같습니다. 자세한 내용들은 PPT를 보시면서 Insight를 얻어가면 될 듯 합니다.

Vision Transformers.pptx

gusdlf93 / Paper_Survey

[2021 arxiv] A Survey of Visual Transformers #8