long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[160] ALOHa: A New Measure for Hallucination in Captioning Models #179

Open long8v opened 3 weeks ago

long8v commented 3 weeks ago

image

paper, code

TL;DR

Details

motivation

image

overall pipeline

image

(1) Extracting objects from candidates, references, and images

(2) Object Filtering

(3) Object matching SBERT 사용 bipartite matching

최종 metric은 아래와 같이 "가장 최소의 matching similarity" image

Result

HAT

image

HAT은 COCO 이미지에 대해서 직접 만듦. (TEST 400) 여기서 CHAIRs는 accuracy라고 함 (AP와 accuracy를 같은 테이블에 두어도 되는건가?)

FOIL

image

no-caps에서 우수한 성적 여기 베이스라인이 50이어서 CLIPScore에서 재듯이 두개를 비교적으로 잰건지 잘 모르겠음. 그랬을 때 정확도가 아니라 AP라고 적어도 되는 건지 모르겠음

Qualitative

image

Ablation

image