Open long8v opened 5 months ago
Mutual Information Divergence: A Unified Metric for Multimodal Generative Models https://arxiv.org/pdf/2205.13445v1.pdf
대충 읽어보니까 mutual information 사용해서 reference 이미지, 텍스트의 CLIP을 통과한 벡터들과 evaluation을 할 이미지 텍스트의 CLIP 벡터들을 pointwise mutual information으로 구했다는 듯?
(X: image vector, Y: text vector, Z: covariance vector)
paper
TL;DR
Details
motivation
CLIPScore
RefCLIP-s
referecne caption도 활용하는 버전.
Caption-level likert judgements
leaderboard 오 이 벤치마크 1위가 네이버 논문이넹 .. Mutual Information Divergence: A Unified Metric for Multimodal Generative Models
Flickr8K-CF 1K의 이미지에 대해 48K의 {image, caption} pair에 대해 binary로 judgement를 crowd sourcing으로 모은 데이터셋
Composite https://arxiv.org/pdf/1511.03292.pdf MSCOCO, Flickr8K, Flickr30K에 대한 12K의 human judgement
System-level correlation for MSCOCO
COCO captioner들 결과랑 비교하는? 데이터가 12개 밖에 없다고 함
Sensitivity of CLIP-S to hallucination
사람의 평가가 "speicificity"보다 "correctness"에 더 많은 영향을 준다고 함 이를 평가하기 위해 hallucination 데이터셋인 FOIL(https://arxiv.org/pdf/1705.01359.pdf)로 평가 MSCOCO에서 single noun phrase에서 명사를 비슷한 단어로 치환을 하는 형태 (e.g., switching “motorcycle" for “bicycle") 32K의 sentence에 대해 치환한 문장이 그렇지 않은 문장보다 더 높은 score를 주었는지로 평가.
Sensitivity of CLIP-S to memorization
혹시 CLIP 학습 과정에서 caption을 배운 걸까봐 직접 데이터셋 모아서 함
Which metrics should I report?
적어도 상위 4개개에서 선택됨을 확인 또한 metric끼리 correlate되어 있지만 redundant하지는 않음을 확인. SPICE 같은 reference 기반이랑 같이 쓰는게 더 좋을 것 같다고 함