CLIP의 similarity map의 문제는 opposite visualization임. target category에 대해 identifying 할 때 CLIP은 forground region 보다 background region에 집중하는 경향을 보임. (다양한 백본에 대해 동일한 결과.)
self-attention에서 key랑 value가 opposite semantic regions를 연결하는 경향이 있음.
fig 4를 보면 original q-k가 opposite semantic region에 더 집중하는 경향이 있고, 이는 곧 confused relation map이라는 의미임.
fig 5를 보면 final classification feature의 cosine angle을 계산할 때 FFN 모듈이 self-attention 모듈보다 더 큰 갭을 가지는 결과를 보임.
negative label의 코싸인보다 더 큰 값을 가졌고 FFN의 처음 3개의 feature가 negative label feature에 매우 가까움.
FFN이 positives를 identifying 할 때 negatives 방향으로 push함을 의미함.
false prediction
: 모델이 잘못 예측했을 때 false region에 집중하는 경우
Related context
: redundant features in CLIP. CLIP은 특정 클래스에 대해 몇 개의 피쳐만 활성화되고 나머지 피쳐들은 non-activated 되기 때문에 이런 non-activated features들이 redundant되어 feature space상에 상당한 영향을 미치게 됨.
이 redundant feature들을 제거했을 때 성능이 상당히 개선됨.
CLIP Feature Surgery (noisy activation 문제를 어떻게 해결할 것인가)
class dimension을 따라서 평균 feature를 계산하는 것이 효과적인 접근법일 수 있다.
high scoring obvious classes로부터 영향을 받은 카테고리들은 false activations를 보임.
따라서 이미지 피쳐와 택스트 피쳐 각각을 expand 시키고 나서 element-wise multiplication 수행.
text token, image token 수만큼 copy해서 expand함. 그리고 channel 축으로 L2 norm.
그다음에 class token이랑 text feature 간의 similarity score를 구함.
1. CLIP Architecture Surgery to Correct
Opposite Visualization
Dual path 설계
2. CLIP Feature Surgery to Mitigate Noisy Activations
Predicted similarity map in CLIP은 noisy activation 때문에 설명력이 떨어진다는 문제가 있음.
fig 6을 보면 discriminative areas 대신에 noisy-region을 하이라이트해서 의사 결정을 하는 경향을 보임.
이런 noisy activation은 시각화 퀄리티를 떨어뜨리며, spotty heatmap, irregular shapes를 보임.
그럼 왜 이러 노이지 맵이 생긴것일까?
CLIP Feature Surgery (noisy activation 문제를 어떻게 해결할 것인가)
class dimension을 따라서 평균 feature를 계산하는 것이 효과적인 접근법일 수 있다.
high scoring obvious classes로부터 영향을 받은 카테고리들은 false activations를 보임.
따라서 이미지 피쳐와 택스트 피쳐 각각을 expand 시키고 나서 element-wise multiplication 수행.
text token, image token 수만큼 copy해서 expand함. 그리고 channel 축으로 L2 norm.
그다음에 class token이랑 text feature 간의 similarity score를 구함.
그다음에 피쳐에 대한 평균값을 구해서 redundant feature는 제거함.