GLOV: ビジョン言語モデルのための暗黙的オプティマイザとしてのガイド付き大規模言語モデル

fulfulggg commented 4 days ago

タイトル: GLOV: ビジョン言語モデルのための暗黙的オプティマイザとしてのガイド付き大規模言語モデル

リンク: https://arxiv.org/abs/2410.06154

概要:

本研究では、大規模言語モデル (LLM) をビジョン言語モデル (VLM) のための暗黙的なオプティマイザとして機能させ、下流の視覚タスクを向上させる新しい手法 (GLOV) を提案します。GLOV は、下流タスクの説明を用いて LLM にメタプロンプトを送り、適切な VLM プロンプト (例：CLIP を用いたゼロショット分類) をクエリします。これらのプロンプトは、適合度関数によって得られた純度尺度に従ってランク付けされます。それぞれの最適化ステップにおいて、ランク付けされたプロンプトは、下流の VLM が好むテキストプロンプトの種類に関する知識を LLM に提供するために、(精度とともに) コンテキスト内サンプルとして供給されます。さらに、各最適化ステップにおいて、前の最適化ステップで LLM によって発見された正と負の解からの埋め込みのオフセット差分ベクトルを、次の生成ステップのネットワークの中間層に追加することにより、LLM 生成プロセスを明示的に誘導します。このオフセットベクトルは、下流の VLM が好む言語の種類に向かって LLM 生成を誘導し、下流の視覚タスクのパフォーマンスを向上させます。2 つの VLM ファミリー、つまりデュアルエンコーダー (例：CLIP) モデルとエンコーダーデコーダー (例：LLaVa) モデルを使用して、16 の多様なデータセットで GLOV を包括的に評価した結果、発見されたソリューションは、これらのモデルの認識パフォーマンスを最大 15.0% および 57.5% (平均 3.8% および 21.6%) 向上させることができることが示されました。

fulfulggg commented 4 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

llm
zero-shot-learning
vision-language-model

以下の新しいラベルが作成され、適用されました：

vision-language-model

fulfulggg commented 4 days ago

論文要約

GLOV: ビジョン言語モデルのための陰の指導者、大規模言語モデル

論文概要:

画像認識を得意とするAIモデル（VLM）のパフォーマンス向上のため、文章を扱うのが得意なAIモデル（LLM）を“陰の指導者”として活用する、GLOVという新しい手法を提案。
GLOVの仕組み
1. LLMへの指示: 解決したい画像認識タスクの内容をLLMに伝える。
2. プロンプト生成: LLMは、与えられたタスクに適したVLMへの指示文（プロンプト）を複数生成する。
3. プロンプト評価: 生成されたプロンプトを、VLMを使った画像認識の精度に基づいてランク付けする。
4. LLMへのフィードバック: 精度の高いプロンプトをLLMにフィードバックすることで、LLMはVLMが好みそうな指示文を学習する。
5. LLMの誘導: VLMが好みそうな指示文の方向へLLMを誘導するために、過去の成功例と失敗例の情報を利用してLLMの生成プロセスを調整する。
実験結果:
- 2種類のVLM（CLIP, LLaVaなど）と16種類のデータセットを用いてGLOVを評価。
- GLOVを用いることで、VLMの画像認識精度が最大15.0%、平均3.8%向上。
- 特定の種類のVLMでは、最大57.5%、平均21.6%の精度向上が見られた。

まとめ:

GLOVは、LLMを“陰の指導者”として活用することで、VLMの画像認識能力を大幅に向上させることができる画期的な手法である。

fulfulggg / Information-gathering