Transformer의 attention을 token mixer로 추상화하고, token mixer가 정해지지 않은 MetaFormer라는 일반화된 구조로 전체 Transformer를 추상화했다.
기존에는 token mixer의 역할에 집중해 token mixer로 Attention, Spatial MLP를 사용하고 이를 개선하는 다양한 논문들이 있었는데, 이 논문에서는 특정한 Token Mixer보다 MetaFormer의 구조 자체가 Transformer 모델 성능의 결정적인 요인이라고 말한다.
이 가설을 검증하기 위해 token mixer로 non-parametric operator인 pooling을 적용했는데, PoolFormer는 경쟁력있는 성능을 달성했다.
[Contribution]
Transformer의 구조를 일반화한 MetaFormer를 제안했다.
token mixer에만 집중하기보다 MetaFormer 구조 자체에 집중하도록 영감을 주었다.
[Comment]
Transformer, MLP-like model들을 MetaFormer라는 구조로 추상화시켜 큰 그림을 그려볼 수 있었다.
기존 연구들에서 집중했던 token-mixer에서 벗어나 구조 그 자체라는 새로운 관점을 제시했다.
이를 pooling을 통해 검증 했다고는 하지만, 그래서 왜 이 구조 자체가 잘 작동한다에 대한 설명이 부족하다고 느꼈다. 이에 대한 후속 연구가 필요할 것 같다.
Links
한 줄 요약
선택 이유