long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[153] Contrastive Explanations for Model Interpretability #168

Open long8v opened 3 months ago

long8v commented 3 months ago
image

paper

TL;DR

Details

image image

method

일단 masking하고 모델 forward 를 여러번 할 것임. 이런 방법을 여기서는 amnesic 방법론이라고 부름.

$w{y^*}$, $w{y'}$ 이 두개의 weight row를 하나의 contrastive direction $u$로 만듦.

image

만약에 모델이 $y^$를 더 높게 예측한다면 $u^Th_x>0$ 일 것임.

image

이 u를 사용하여 hidden state $h_x$에 대한 projection을 만듦. 이 C연산의 결과값은 $h_x$에서 contrastive intervention로 해석될 수 있는 행렬이 됨. 이후 이전과 같이 $q = \text{softmax}(Wh_x)$와 같은 연산을 한 뒤 아래와 같은 방식으로 text span의 계수를 구함.

image

이때 p는 projection을 안한 값의 model prediction이고 q는 한 값.

result

image

결과 해석이 잘 안됨 ..