LIME-M：巨大言語モデル評価における「Less Is More」アプローチ

fulfulggg commented 1 month ago

タイトル: LIME-M：巨大言語モデル評価における「Less Is More」アプローチ

リンク: https://arxiv.org/abs/2409.06851

概要:

マルチモーダル大規模言語モデル（MLLM）の著しい成功に伴い、画像認識タスク（例：画像キャプション生成、画像質問応答）におけるMLLMの能力を評価し、その開発を導くために、数多くのベンチマークが設計されてきました。しかし、膨大な数のベンチマークが存在することで、すべてのベンチマークでモデルの性能を評価する際に、計算負荷が大きくなってしまいます。さらに、これらのベンチマークには、過度に単純な問題や難しいサンプルが多く含まれており、様々なMLLMの能力を効果的に差別化することができません。

これらの課題に対処するため、既存のベンチマークを処理するためのパイプラインを提案します。このパイプラインは、(1) 半自動スクリーニングプロセスと(2) 回答漏洩の排除、という2つのモジュールで構成されています。半自動スクリーニングプロセスでは、様々なMLLMを合成して手動で評価することで、モデルの能力を区別できないサンプルを除外します。回答漏洩排除モジュールでは、画像がなくても回答を推測できるサンプルを除外します。最後に、マルチモーダルLLMの評価に特化した軽量なマルチモーダルベンチマークであるLIME-M: Less Is More for Evaluation of Multimodal LLMsをキュレーションしました。

実験の結果、以下のことが明らかになりました。LIME-Mは、より少ないサンプル数（元の24%）と時間（元の23%）で、異なるMLLMの性能をより適切に区別できます。LIME-Mは、回答の漏洩を排除し、主に画像内の情報に焦点を当てています。現在の自動評価指標（CIDErなど）は、キャプション生成におけるMLLMの能力を評価するには不十分です。さらに、総合スコアを算出する際にキャプションタスクのスコアを除外することで、モデルの性能差をより正確に反映できます。すべてのコードとデータは、https://github.com/kangreen0210/LIME-M で公開されています。

fulfulggg commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

benchmark
llm
image-captioning

fulfulggg commented 1 month ago

論文要約

論文要約: LIME-M：巨大言語モデル評価における「Less Is More」アプローチ

現状の課題:

画像認識タスクを行う巨大言語モデル（MLLM）の評価に使われるベンチマークが大量に存在し、評価に時間がかかる。
既存のベンチマークは簡単すぎる問題や難しすぎる問題が多く、MLLM間の性能差を適切に評価できない。
画像を見なくても回答できてしまう問題（回答漏洩）が存在し、正確な評価を阻害している。

提案手法:

既存のベンチマークから、MLLMの性能差を適切に評価できるサンプルのみを抽出するパイプラインを開発。
- 半自動スクリーニングプロセス: 様々なMLLMを用いて、モデルの能力を区別できないサンプルを除外。
- 回答漏洩排除モジュール: 画像がなくても回答を推測できるサンプルを除外。
上記パイプラインを用いて厳選したサンプルで構成された、軽量なマルチモーダルベンチマーク LIME-M を作成。

LIME-M の利点:

既存ベンチマークに比べてサンプル数と評価時間が大幅に削減 (サンプル数は24%、評価時間は23%に減少)。
回答漏洩がなく、画像内の情報に基づいた回答を要求するため、より正確な評価が可能。
既存の評価指標では不十分なキャプション生成タスクにおいても、モデル間の性能差をより適切に評価可能。

結論:

LIME-Mは、効率的かつ正確なMLLM評価を可能にする、軽量かつ高性能なベンチマークである。

fulfulggg / Information-gathering