[160] ALOHa: A New Measure for Hallucination in Captioning Models

TL;DR

I read this because.. : 개인 연구 매우 관련 연구
task : object hallucination evaluation
problem : 기존 hallucination을 측정하기 위한 CHAIR는 string matching에 의존 하고 있고, COCO object에 한정되어 있다.
idea : LLM을 사용해서 파싱, DETR로 object 뽑고, S-BERT로 semantic similiarity로 bipartite matching
input/output : {image, text} -> score (높을 수록 좋음)
baseline : CHAIR, CLIPScore, RefCLIPScore
data : FOIL, noCaps-FOIL(proposed), HAT(proposed)
evaluation : AP for task 1, LA for task 2(accuracy)
result : Average Precision는 RefCLIPScore와 비슷한 성능, Localization Accuracy는 CHAIRs와 비슷하지만 noCaps-FOIL에서는 우월한 성능.
contribution : object hallucination에 대한 captioning 모델에 대한 파이프라인 제안
etc. : limitation을 숨기는게 아니라 잘 밝혀놔서 좋고, proposed method의 장점을 보여줄 수 있는 데이터를 만든 것도 좋다.

(1) Extracting objects from candidates, references, and images

GT 후보들
- COCO로 학습된 DETR -> object candidates
- referecne caption에서의 object parsing을 ChatGPT 사용해서 뽑음
- 이때 attribute도 같이 뽑으라고 함
- 단수화(s 빼기)
predicted
- candidata catpion에서 마찬가지로 LLM으로 파싱

(2) Object Filtering

캡션모델이 uncertain해서 fork or knife와 같은 서술을 하는 경우가 있음.
- 이런 경우 candidate caption의 class set에서 뺌 (referecne에선 안 뺌)
spaCy를 사용하여 referecne noun phrase에서 명사만 남김.

(3) Object matching SBERT 사용 bipartite matching

최종 metric은 아래와 같이 "가장 최소의 matching similarity"

HAT은 COCO 이미지에 대해서 직접 만듦. (TEST 400) 여기서 CHAIRs는 accuracy라고 함 (AP와 accuracy를 같은 테이블에 두어도 되는건가?)

no-caps에서 우수한 성적 여기 베이스라인이 50이어서 CLIPScore에서 재듯이 두개를 비교적으로 잰건지 잘 모르겠음. 그랬을 때 정확도가 아니라 AP라고 적어도 되는 건지 모르겠음