long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[161] MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & Tasks #180

Open long8v opened 3 weeks ago

long8v commented 3 weeks ago
image

paper, code

TL;DR

Details

motivation

image

CLIP은 틀린 단어(keyboard)에 대해 negative 점수를 주지 못한다.

SHAP

게임이론의 shapley 기반이라고 하넹

image image

occulsion based랑 비슷한데 각 토큰이 아니라 토큰 조합까지 subset으로 만들어서 occulde 하는 방식. 너무 조합이 많으니까 subsampling해서 사용

why not attention based?

image

cheferCAM은 negative 못본다!

image