long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[145] CLIPScore: A Reference-free Evaluation Metric for Image Captioning #157

Open long8v opened 5 months ago

long8v commented 5 months ago
image

paper

TL;DR

Details

motivation

image

CLIPScore

image

RefCLIP-s

referecne caption도 활용하는 버전.

image

Caption-level likert judgements

leaderboard 오 이 벤치마크 1위가 네이버 논문이넹 .. Mutual Information Divergence: A Unified Metric for Multimodal Generative Models

System-level correlation for MSCOCO

COCO captioner들 결과랑 비교하는? 데이터가 12개 밖에 없다고 함

Sensitivity of CLIP-S to hallucination

사람의 평가가 "speicificity"보다 "correctness"에 더 많은 영향을 준다고 함 이를 평가하기 위해 hallucination 데이터셋인 FOIL(https://arxiv.org/pdf/1705.01359.pdf)로 평가 MSCOCO에서 single noun phrase에서 명사를 비슷한 단어로 치환을 하는 형태 (e.g., switching “motorcycle" for “bicycle") 32K의 sentence에 대해 치환한 문장이 그렇지 않은 문장보다 더 높은 score를 주었는지로 평가.

image

Sensitivity of CLIP-S to memorization

혹시 CLIP 학습 과정에서 caption을 배운 걸까봐 직접 데이터셋 모아서 함

Which metrics should I report?

적어도 상위 4개개에서 선택됨을 확인 또한 metric끼리 correlate되어 있지만 redundant하지는 않음을 확인. SPICE 같은 reference 기반이랑 같이 쓰는게 더 좋을 것 같다고 함

long8v commented 4 months ago

Mutual Information Divergence: A Unified Metric for Multimodal Generative Models https://arxiv.org/pdf/2205.13445v1.pdf

대충 읽어보니까 mutual information 사용해서 reference 이미지, 텍스트의 CLIP을 통과한 벡터들과 evaluation을 할 이미지 텍스트의 CLIP 벡터들을 pointwise mutual information으로 구했다는 듯?

image

(X: image vector, Y: text vector, Z: covariance vector)

image