Open fulfulggg opened 1 month ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
現状の課題:
提案手法:
既存のベンチマークから、MLLMの性能差を適切に評価できるサンプルのみを抽出するパイプラインを開発。
上記パイプラインを用いて厳選したサンプルで構成された、軽量なマルチモーダルベンチマーク LIME-M を作成。
LIME-M の利点:
結論:
LIME-Mは、効率的かつ正確なMLLM評価を可能にする、軽量かつ高性能なベンチマークである。
タイトル: LIME-M:巨大言語モデル評価における「Less Is More」アプローチ
リンク: https://arxiv.org/abs/2409.06851
概要:
マルチモーダル大規模言語モデル(MLLM)の著しい成功に伴い、画像認識タスク(例:画像キャプション生成、画像質問応答)におけるMLLMの能力を評価し、その開発を導くために、数多くのベンチマークが設計されてきました。しかし、膨大な数のベンチマークが存在することで、すべてのベンチマークでモデルの性能を評価する際に、計算負荷が大きくなってしまいます。さらに、これらのベンチマークには、過度に単純な問題や難しいサンプルが多く含まれており、様々なMLLMの能力を効果的に差別化することができません。
これらの課題に対処するため、既存のベンチマークを処理するためのパイプラインを提案します。このパイプラインは、(1) 半自動スクリーニングプロセスと(2) 回答漏洩の排除、という2つのモジュールで構成されています。半自動スクリーニングプロセスでは、様々なMLLMを合成して手動で評価することで、モデルの能力を区別できないサンプルを除外します。回答漏洩排除モジュールでは、画像がなくても回答を推測できるサンプルを除外します。最後に、マルチモーダルLLMの評価に特化した軽量なマルチモーダルベンチマークであるLIME-M: Less Is More for Evaluation of Multimodal LLMsをキュレーションしました。
実験の結果、以下のことが明らかになりました。LIME-Mは、より少ないサンプル数(元の24%)と時間(元の23%)で、異なるMLLMの性能をより適切に区別できます。LIME-Mは、回答の漏洩を排除し、主に画像内の情報に焦点を当てています。現在の自動評価指標(CIDErなど)は、キャプション生成におけるMLLMの能力を評価するには不十分です。さらに、総合スコアを算出する際にキャプションタスクのスコアを除外することで、モデルの性能差をより正確に反映できます。すべてのコードとデータは、https://github.com/kangreen0210/LIME-M で公開されています。