[1] MLP-Mixer: An all-MLP Architecture for Vision

[Review Link] https://dongwoo-im.github.io/papers/review/2022-11-04-MLP-Mixer/

[Summary] Computer vision 분야에서는 CNN과 Transformer(ViT) 위주의 모델 구조가 연구되어 왔는데, ViT 모델 구조는 유지한 채 attention layer를 MLP로 대체하여 학습 시간은 낮추면서 유의미한 수준의 성능을 보였고 inference의 throughput 또한 높였습니다.

[Contribution] (거의 ViT 구조와 유사하긴 하지만) MLP layer만으로 이미지 데이터를 충분히 잘 학습할 수 있음을 밝혔습니다.

[Comment] 1) 이후 제시된 다양한 MLP-like 모델의 시초 격인 논문으로 생각됩니다. 2) MLP-Mixer 논문을 읽었다면, OpenReview도 읽어보는 것을 추천합니다.

DeepVisionStudy / PaperReview

[1] MLP-Mixer: An all-MLP Architecture for Vision #2

Links

한 줄 요약

선택 이유