long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[151] FOIL it! Find One mismatch between Image and Language caption #163

Open long8v opened 7 months ago

long8v commented 7 months ago
image

paper

TL;DR

Details

Task

image

num samples

image

데이터 제작 방식

image

1) MS-COCO에서 같은 supercategory를 가진 object로 pair를 만듬

Evaluation

image

T1의 경우 원래 caption에 각 단어들을 지우고 captioner 모델로 생성을 하라고 한 뒤에 그 단어로 치환한 캡션과 원래 캡션 중에 모델이 더 높게 예측한 값을 비교해서 치환한 캡션이 더 높으면 FOIL으로 판단

image

T2의 경우 Towards Transparent AI Systems: Interpreting Visual Question Answering Models (https://arxiv.org/pdf/1608.08974.pdf) image 에서 사용된 occulsion 방법을 사용. 뭐냐 하면 question의 단어들을 하나씩 mask하고 forward를 한 뒤에 original predicted answer에 대해 score가 얼마나 바뀌었는지로 측정

image

T3의 경우 target word에 대한 linear regression을 수행 (얘만 새로 학습하는듯?)

Analysis

image

잘못만들어진 데이터셋

image