long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[156] Interpreting CLIP's Image Representation via Text-Based Decomposition #172

Open long8v opened 5 months ago

long8v commented 5 months ago
image

a.k.a TextSpan paper, code

TL;DR

Details

related work

Preliminary findings

image

last 4 layer의 MSA만 성능에 영향을 주고 MLP나 그전의 MSA 레이어들은 mean ablate를 해도 성능에 큰 영향이 없었다.

Decomposition to head

image

MSA를 위와 같이 표현할 수 있음 $\alpha$는 attention score

image

여기에 projection $P$ 까지 포함해서 표현하면 위와 같은 식이 됨. 즉 레이어, head, patch 별로 projection과 attention 연산 $c_{i, j, h}$를 summation하여 각 레이어, 헤드 등의 표현을 구할 수 있음

TextSpan algorithm

image

복잡해 보이는데 별거 없음

이렇게 나온 layer / head 별 표현들

image

Result

Quantitative

image

Qualitative

image image image