fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

LIME-M:巨大言語モデル評価における「Less Is More」アプローチ #265

Open fulfulggg opened 1 month ago

fulfulggg commented 1 month ago

タイトル: LIME-M:巨大言語モデル評価における「Less Is More」アプローチ

リンク: https://arxiv.org/abs/2409.06851

概要:

マルチモーダル大規模言語モデル(MLLM)の著しい成功に伴い、画像認識タスク(例:画像キャプション生成、画像質問応答)におけるMLLMの能力を評価し、その開発を導くために、数多くのベンチマークが設計されてきました。しかし、膨大な数のベンチマークが存在することで、すべてのベンチマークでモデルの性能を評価する際に、計算負荷が大きくなってしまいます。さらに、これらのベンチマークには、過度に単純な問題や難しいサンプルが多く含まれており、様々なMLLMの能力を効果的に差別化することができません。

これらの課題に対処するため、既存のベンチマークを処理するためのパイプラインを提案します。このパイプラインは、(1) 半自動スクリーニングプロセスと(2) 回答漏洩の排除、という2つのモジュールで構成されています。半自動スクリーニングプロセスでは、様々なMLLMを合成して手動で評価することで、モデルの能力を区別できないサンプルを除外します。回答漏洩排除モジュールでは、画像がなくても回答を推測できるサンプルを除外します。最後に、マルチモーダルLLMの評価に特化した軽量なマルチモーダルベンチマークであるLIME-M: Less Is More for Evaluation of Multimodal LLMsをキュレーションしました。

実験の結果、以下のことが明らかになりました。LIME-Mは、より少ないサンプル数(元の24%)と時間(元の23%)で、異なるMLLMの性能をより適切に区別できます。LIME-Mは、回答の漏洩を排除し、主に画像内の情報に焦点を当てています。現在の自動評価指標(CIDErなど)は、キャプション生成におけるMLLMの能力を評価するには不十分です。さらに、総合スコアを算出する際にキャプションタスクのスコアを除外することで、モデルの性能差をより正確に反映できます。すべてのコードとデータは、https://github.com/kangreen0210/LIME-M で公開されています。

fulfulggg commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

fulfulggg commented 1 month ago

論文要約

論文要約: LIME-M:巨大言語モデル評価における「Less Is More」アプローチ

現状の課題:

提案手法:

LIME-M の利点:

結論:

LIME-Mは、効率的かつ正確なMLLM評価を可能にする、軽量かつ高性能なベンチマークである。