sy00n / DL_paper_review

issues에 논문 요약
0 stars 0 forks source link

[27] Token-Label Alignment for Vision Transformers #32

Open sy00n opened 8 months ago

sy00n commented 8 months ago

Abstract

Introduction

Method

ViT모델의 경우 input-dependent weights가 flexibility하게 만들지만, processed token과 initial token간의 mismatch를 일으키기도 한다. 이를 위해 token-label alignment 방식을 제안해서 input과 transformed token간 trace를 수행해서 aligned label을 얻는다. image

구체적으로, ViT는 처음에 mixed input을 패치로 쪼개고 flatten 시켜서 토큰화한다. projection을 수행하고 positional embedding을 더해준다.

  1. Label Alignment

    • 이 메트릭스 A를 사용해서 label을 alignment함. image
  2. MSA image MSA연산을 head별로 수행하면, 각 attention matrix에 대한 head 별 평균을 계산해서 label alignment를 수행함. image image

  3. Transformer block image spatial & clannel mixing을 수행해서 token을 처리함. (Laner norm, MLP)

  4. Hierarchical Vision Transformers, Patch merging 패치를 채널 방향으로 concatenate하지 않고, 레이블 임베딩을 추가한 후 normalization를 수행하여 레이블을 align 함

TL-Align은 각 레이어에서 레이블과 토큰을 algin해서 consistency를 유지함. 이미지의 최종 representation은 class token이나 모든 spatial token의 average pooling으로 얻음. (모델 구조마다 다름)