evaluation : (1) accuracy (2) FOIL caption 중에 word를 잘 찾았나. noun으로만 평가 / 전체 명사로 평가 (3) FOIL word가 주어졌을 때 원래의 단어로 다 바뀌나
contribution : 이후 hallucination measure 등으로 사용됨
etc. :
17년도에서 할 수 있는 가장 합리적인 방법으로 만듦
별로 유명한 evaluation set은 아닌 듯 -> 최근 LVLM benchmark로 하는게 더 나을지도 모르겠다
single noun 하나만 바꾼다는게 좀 단점이려나
Details
Task
num samples
데이터 제작 방식
1) MS-COCO에서 같은 supercategory를 가진 object로 pair를 만듬
이 때, 단어가 2개 이상인 애들을 뺌. e.g. traffic light
2) train / test category를 나눔
학습에 사용된 targe::foil pair는 test에 사용되지 않을 것임
3) foil caption을 만듦
이때, caption에 들어간 단어를 교체함
그리고 이미지 내에 존재하지 않는 object에 대해 교체함
e.g. "강아지와 고양이가 밥을 먹는다"에서 고양이가 있으므로 강아지를 고양이로 교체하지는 않음
4) Neuraltalk이란 captioning 모델을 사용해서 가장 어려운 caption으로 선택함
Evaluation
T1은 그냥 분류
T2는 {image, FOIL caption}이 주어졌을 때 foil word를 찾는지
T3는 {image, FOIL caption, FOIL word}가 주어졌을 때 foil word를 잘 고치는지
T1의 경우 원래 caption에 각 단어들을 지우고 captioner 모델로 생성을 하라고 한 뒤에 그 단어로 치환한 캡션과 원래 캡션 중에 모델이 더 높게 예측한 값을 비교해서 치환한 캡션이 더 높으면 FOIL으로 판단
T2의 경우 Towards Transparent AI Systems: Interpreting Visual Question Answering Models (https://arxiv.org/pdf/1608.08974.pdf)
에서 사용된 occulsion 방법을 사용.
뭐냐 하면 question의 단어들을 하나씩 mask하고 forward를 한 뒤에 original predicted answer에 대해 score가 얼마나 바뀌었는지로 측정
T3의 경우 target word에 대한 linear regression을 수행 (얘만 새로 학습하는듯?)
paper
TL;DR
Details
Task
num samples
데이터 제작 방식
1) MS-COCO에서 같은 supercategory를 가진 object로 pair를 만듬
Evaluation
T1의 경우 원래 caption에 각 단어들을 지우고 captioner 모델로 생성을 하라고 한 뒤에 그 단어로 치환한 캡션과 원래 캡션 중에 모델이 더 높게 예측한 값을 비교해서 치환한 캡션이 더 높으면 FOIL으로 판단
T2의 경우 Towards Transparent AI Systems: Interpreting Visual Question Answering Models (https://arxiv.org/pdf/1608.08974.pdf) 에서 사용된 occulsion 방법을 사용. 뭐냐 하면 question의 단어들을 하나씩 mask하고 forward를 한 뒤에 original predicted answer에 대해 score가 얼마나 바뀌었는지로 측정
T3의 경우 target word에 대한 linear regression을 수행 (얘만 새로 학습하는듯?)
Analysis
잘못만들어진 데이터셋