[41] CLIP Surgery for Better Explainability with Enhancement in Open-Vocabulary Tasks - Githubissues

sy00n / DL_paper_review

issues에 논문 요약

0 stars 0 forks source link

[41] CLIP Surgery for Better Explainability with Enhancement in Open-Vocabulary Tasks #46

Open sy00n opened 7 months ago

sy00n commented 7 months ago

1. CLIP Architecture Surgery to Correct

Opposite Visualization

CLIP의 similarity map의 문제는 opposite visualization임. target category에 대해 identifying 할 때 CLIP은 forground region 보다 background region에 집중하는 경향을 보임. (다양한 백본에 대해 동일한 결과.)

self-attention에서 key랑 value가 opposite semantic regions를 연결하는 경향이 있음.
fig 4를 보면 original q-k가 opposite semantic region에 더 집중하는 경향이 있고, 이는 곧 confused relation map이라는 의미임.

fig 5를 보면 final classification feature의 cosine angle을 계산할 때 FFN 모듈이 self-attention 모듈보다 더 큰 갭을 가지는 결과를 보임.
negative label의 코싸인보다 더 큰 값을 가졌고 FFN의 처음 3개의 feature가 negative label feature에 매우 가까움.
FFN이 positives를 identifying 할 때 negatives 방향으로 push함을 의미함.
따라서 self-attention module에서 FFNs를 없애서 reform함.

Dual path 설계

multiple v-v self attention feature를 merge하는 dual path를 제안함
목적은 안정적인 인풋을 얻고 classification task에서 original features를 유지하는 것임.
path를 하나로만 두게 되면 처음에 modification하게 되면, 이후 모듈의 인풋이 바뀌기 때문에 이 차이가 레이어에서 레이어로 전달될수록 증폭되어서 모델이 crash되고 collapse로 이어짐.
따라서 original path를 같이 둠으로써 이 path는 modify 되지 않았기 때문에 새로운 path는 이전 아웃풋을 안정적인 안풋으로 받게 됨.
이 때 dual path는 inference 시에만 merge하고, 학습시에 new path는 쓰이지 않음. 따라서 back-propagation이 필요가 없고 빠르고 직관적임.

2. CLIP Feature Surgery to Mitigate Noisy Activations

Predicted similarity map in CLIP은 noisy activation 때문에 설명력이 떨어진다는 문제가 있음.
fig 6을 보면 discriminative areas 대신에 noisy-region을 하이라이트해서 의사 결정을 하는 경향을 보임.
이런 noisy activation은 시각화 퀄리티를 떨어뜨리며, spotty heatmap, irregular shapes를 보임.

그럼 왜 이러 노이지 맵이 생긴것일까?

false prediction : 모델이 잘못 예측했을 때 false region에 집중하는 경우
Related context : redundant features in CLIP. CLIP은 특정 클래스에 대해 몇 개의 피쳐만 활성화되고 나머지 피쳐들은 non-activated 되기 때문에 이런 non-activated features들이 redundant되어 feature space상에 상당한 영향을 미치게 됨.
- 이 redundant feature들을 제거했을 때 성능이 상당히 개선됨.

CLIP Feature Surgery (noisy activation 문제를 어떻게 해결할 것인가)

class dimension을 따라서 평균 feature를 계산하는 것이 효과적인 접근법일 수 있다.
high scoring obvious classes로부터 영향을 받은 카테고리들은 false activations를 보임.
따라서 이미지 피쳐와 택스트 피쳐 각각을 expand 시키고 나서 element-wise multiplication 수행.
text token, image token 수만큼 copy해서 expand함. 그리고 channel 축으로 L2 norm.
그다음에 class token이랑 text feature 간의 similarity score를 구함.
그다음에 피쳐에 대한 평균값을 구해서 redundant feature는 제거함.