FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

Paper : https://arxiv.org/abs/2303.14189 GitHub : https://github.com/apple/ml-fastvit

Overview

오늘 리뷰할 논문은 애플에서 공개한 "FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization" 라는 논문입니다. 본 논문에서는 제안하는 FastViT는 the state-of-the-art latency-accuracy trade-off를 만족하는 hybrid vision transformer 구조입니다. 여기서 Reparameterization 기법을 이용하여 신경망에서 Skip-connection을 제거하고, memory access 비용을 낮추는 새로운 RepMixer(a novel token mixing operator)를 제안합니다. 현재 hybrid transformer architecture인 CMT 보다 3.5배 빠르고, EfficientNet 보다 4.9배 빠르고, 모바일 장치에서 ConvNeXt 보다 1.9배 빠르다고 합니다. 그리고 유사한 latency 에서 본 논문에서 제안하는 모델이 ImageNet에서 MobileOne 모델보다 4.2% 더 나은 정확도를 보여준다고 하네요. 무엇보다도 모바일 장치와 데스크톱 GPU 환경에서 latency가 크게 개선되었다고 합니다.

위 지표를 보시면, iPhone 12 Pro, NVIDIA RTX-2080Ti 에서 측정되었으며 , FastViT 모델이 다른 모델에 비해 빠르고 정확도도 높기 때문에 Mobile Latency, GPU Latency에서 우수하다는 것을 볼 수 있습니다.

요즘 연구에서는 정확도를 유지하면서 효율적으로 네트워크를 설계하기 위해 vision transformer 구조에서 conv 구조와 transformer의 구조를 병합하는 하이브리드 방식이 대세인 듯 하네요! 최근 공개된 Metaformer 아키텍처는 skip connection이 존재하는 token mixer와 다른 skip connection이 있는 Feed Forward Network(FFN)으로 구성되곤 하는데 이러한 skip connection 구조는 상당한 오버헤드를 차지한다고 합니다. 왜냐면 메모리 엑세스 비용이 필요하기 때문이죠. 그래서 이러한 오버헤드를 해결하기 위해 Reparameterization을 사용하는겁니다.

그래서 본 논문에서는 이러한 skip connection 구조를 제거하여 메모리 비용을 아낄 수 있는 Reparameterization 기법인 RepMixer를 소개합니다. 이렇게 Reparameterization 하는 방식은 이전 연구에서도 많이 연구가 진행되었는데, 하이브리드 구조에서 적용된 사례는 처음보는 듯 합니다. 앞으로 이런 연구가 활발하게 진행되지 않을까 싶네요.

아무튼, FastViT 아키텍처의 주요 설계 원칙은 다음과 같다고 합니다. contribution이라고 할 수 있겠네요.

RepMixer 블록을 사용하여 skip connection 제거
정확도 향상을 위한 linear train-time overparameterization 사용
early stage에서 self-attention 레이어를 대체하기 위해 large conv kernel 사용

eehoeskrap / PaperReview

FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization #22

Overview