fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

GLOV: ビジョン言語モデルのための暗黙的オプティマイザとしてのガイド付き大規模言語モデル #452

Open fulfulggg opened 4 days ago

fulfulggg commented 4 days ago

タイトル: GLOV: ビジョン言語モデルのための暗黙的オプティマイザとしてのガイド付き大規模言語モデル

リンク: https://arxiv.org/abs/2410.06154

概要:

本研究では、大規模言語モデル (LLM) をビジョン言語モデル (VLM) のための暗黙的なオプティマイザとして機能させ、下流の視覚タスクを向上させる新しい手法 (GLOV) を提案します。GLOV は、下流タスクの説明を用いて LLM にメタプロンプトを送り、適切な VLM プロンプト (例:CLIP を用いたゼロショット分類) をクエリします。これらのプロンプトは、適合度関数によって得られた純度尺度に従ってランク付けされます。それぞれの最適化ステップにおいて、ランク付けされたプロンプトは、下流の VLM が好むテキストプロンプトの種類に関する知識を LLM に提供するために、(精度とともに) コンテキスト内サンプルとして供給されます。さらに、各最適化ステップにおいて、前の最適化ステップで LLM によって発見された正と負の解からの埋め込みのオフセット差分ベクトルを、次の生成ステップのネットワークの中間層に追加することにより、LLM 生成プロセスを明示的に誘導します。このオフセットベクトルは、下流の VLM が好む言語の種類に向かって LLM 生成を誘導し、下流の視覚タスクのパフォーマンスを向上させます。2 つの VLM ファミリー、つまりデュアルエンコーダー (例:CLIP) モデルとエンコーダーデコーダー (例:LLaVa) モデルを使用して、16 の多様なデータセットで GLOV を包括的に評価した結果、発見されたソリューションは、これらのモデルの認識パフォーマンスを最大 15.0% および 57.5% (平均 3.8% および 21.6%) 向上させることができることが示されました。

fulfulggg commented 4 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

以下の新しいラベルが作成され、適用されました:

fulfulggg commented 4 days ago

論文要約

GLOV: ビジョン言語モデルのための陰の指導者、大規模言語モデル

論文概要:

まとめ:

GLOVは、LLMを“陰の指導者”として活用することで、VLMの画像認識能力を大幅に向上させることができる画期的な手法である。