long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[150] Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization #162

Open long8v opened 4 months ago

long8v commented 4 months ago
image

paper

TL;DR

Details

proposed

image

우리가 시각화하고 싶은 class c에 대한 logit (softmax 이전) $y^c$를 activation feature map $A_{ij}$에 대해 미분함. 이를 width, height (i, j)에 대해 Global Average Pooling 해서 importance를 구함.

image

이걸 activation map과 다시 weighted sum한 뒤에 ReLU를 취하면 GradCAM

image

이때 마지막 레이어의 conv feature map (14 x 14 size)를 사용 (이전 레이어 쓰면 성능이 별로 좋지 않음) 여기서 ReLU를 적용한 이유는 negative하게 영향을 주는 pixel은 다른 카테고리에 해당하는 것일테니 그럼. ReLU를 적용안하니까 원하는 class $y^c$가 아닌 다른 클래스가 활성화될때가 있었고 localization 성능이 떨어짐.

image

단순히 gradient에 negative를 구해준 뒤 ReLU를 취하면(negative activation만 남을테니) counterfactual explanation이 됨. 이 픽셀이 이 클래스가 왜 아닌지에 대한 설명!

Result

Network Dissection: Quantifying Interpretability of Deep Visual Representations https://arxiv.org/abs/1704.05796 이거 읽어보장

이미지에 살짝 perturbationd을 취하면 airliner 0.9999로 예측하는 예시. 근데 이렇게 해도 GradCAM은 잘된다.