paperswithlove / papers-we-read

3 stars 0 forks source link

MMStar: Are We on the Right Way for Evaluating Large Vision-Language Models? #16

Open JihoonJ opened 6 months ago

JihoonJ commented 6 months ago

image

Links

  1. Archive: https://arxiv.org/pdf/2403.20330.pdf
  2. Project: https://mmstar-benchmark.github.io/
  3. Leaderboard: https://mmstar-benchmark.github.io/#Leaderboard

Summary

  1. 이 논문에서는 대규모 시각 언어 모델 (LVLM) 의 평가에 대해 논의하고, 두 가지 주요 문제에 대해 Report. 1) Visual Content와 무관한 QA(LLM Text Only), 2) LVLM Training 중 데이터 유출. 이를 해결하기 위해 저자들은 시각적 의존성을 나타내고 데이터 유출을 최소화하는 엄선된 샘플로 구성된 MMStar라는 비전에 필수적인 MM 벤치마크를 제안
  2. MMStar는 균형 잡히고 정제된 평가를 제공하기 위해 6가지 핵심 기능과 18개의 세부 축에 걸쳐 LVLM의 MM 기능을 평가.
  3. 또한 이 논문에서는 MM Training에서 데이터 유출과 실제 성능 향상을 측정하는 두 가지 Evaluation Metric을 소개
  4. Benchmark가 잘 만들어졌는지는 모호함. 다만 기존 Benchmark의 문제점들을 정량, 정성적 분석한 것은 유의미.

Highlights

기존 Benchmark의 문제점들

Evaluation Metric: Two novel metrics to separately assess the degree of data leakage and actual performance gain from the multi-modal training process.