last 4 layer의 MSA만 성능에 영향을 주고 MLP나 그전의 MSA 레이어들은 mean ablate를 해도 성능에 큰 영향이 없었다.
Decomposition to head
MSA를 위와 같이 표현할 수 있음 $\alpha$는 attention score
여기에 projection $P$ 까지 포함해서 표현하면 위와 같은 식이 됨.
즉 레이어, head, patch 별로 projection과 attention 연산 $c_{i, j, h}$를 summation하여 각 레이어, 헤드 등의 표현을 구할 수 있음
TextSpan algorithm
복잡해 보이는데 별거 없음
layer, head 별 attention output $C\in\mathbb{R}${K\times d'}$와 text representation $R\in\mathbb{R}^{M\times d'}$와 행렬 곱 한다음에 가장 분산을 높게 하는 표현 j를 찾은 뒤 이 $\tau$를 projection에 추가함. 그리고 이 표현을 C와 R에 업데이트해주어서 이 표현이 다음 표현과 orthogonal 하게 표현을 바꿔줌 (PCA와 비슷한 느낌)
a.k.a TextSpan paper, code
TL;DR
Details
related work
Preliminary findings
last 4 layer의 MSA만 성능에 영향을 주고 MLP나 그전의 MSA 레이어들은 mean ablate를 해도 성능에 큰 영향이 없었다.
Decomposition to head
MSA를 위와 같이 표현할 수 있음 $\alpha$는 attention score
여기에 projection $P$ 까지 포함해서 표현하면 위와 같은 식이 됨. 즉 레이어, head, patch 별로 projection과 attention 연산 $c_{i, j, h}$를 summation하여 각 레이어, 헤드 등의 표현을 구할 수 있음
TextSpan algorithm
복잡해 보이는데 별거 없음
이렇게 나온 layer / head 별 표현들
Result
Quantitative
Qualitative