MMStar: Are We on the Right Way for Evaluating Large Vision-Language Models?

Links

이 논문에서는 대규모 시각 언어 모델 (LVLM) 의 평가에 대해 논의하고, 두 가지 주요 문제에 대해 Report. 1) Visual Content와 무관한 QA(LLM Text Only), 2) LVLM Training 중 데이터 유출. 이를 해결하기 위해 저자들은 시각적 의존성을 나타내고 데이터 유출을 최소화하는 엄선된 샘플로 구성된 MMStar라는 비전에 필수적인 MM 벤치마크를 제안
MMStar는 균형 잡히고 정제된 평가를 제공하기 위해 6가지 핵심 기능과 18개의 세부 축에 걸쳐 LVLM의 MM 기능을 평가.
또한 이 논문에서는 MM Training에서 데이터 유출과 실제 성능 향상을 측정하는 두 가지 Evaluation Metric을 소개
Benchmark가 잘 만들어졌는지는 모호함. 다만 기존 Benchmark의 문제점들을 정량, 정성적 분석한 것은 유의미.

Visual Content와 무관한 QA [Fig1. a, b]
- GeminiPro achieves 42.9% on the MMMU benchmark without any visual input.
LVLM Training 중 데이터 유출 [Fig1. c, d]
- Sphinx-X-MoE gets 43.6% on MMMU without accessing images, surpassing its LLM backbone with 17.9%.
- LLM only Text 질의 응답 시 17.9%, MM Training 후 Text로만 질문했을 때 43.6%(MM Training으로 정보가 학습됐을 가능성 높음)
  MMStar
기존 Benchmark Set에서 LLM + Human을 통한 Data Sampling으로 구축한 1,500개의 Benchmark Set
위 2가지 Issue가 포함되지 않은 Sample로만 Filtering
- Visual Dependency, Minimal Data Leakage, Various Difficulty Levels
Distribution of MMStar