Open fulfulggg opened 2 hours ago
視覚言語モデル(VLM)は進化しているものの、画像理解ミスなどで誤った回答をすることがあります。Critic-Vはこの問題に対処するため、VLMの推論能力を向上させる新しいフレームワークです。
Critic-Vは、Criticによる自然言語でのフィードバックと、Reasonerの動的な学習により、より信頼性の高いマルチモーダル推論を実現します。自動運転やロボット工学など、現実世界の応用で大きな可能性を秘めています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: Critic-V:VLM批評家がマルチモーダル推論におけるVLMの誤りを捉える
リンク: https://arxiv.org/abs/2411.18203
概要:
視覚言語モデル(VLM)は、マルチモーダル推論タスクにおいて目覚ましい進歩を遂げてきました。しかし、依然として画像理解の誤りや推論パスの不完全さなどにより、不正確または無関係な応答を生成することが少なくありません。これらの課題に対処するため、私たちはActor-Criticパラダイムに着想を得た新しいフレームワーク「Critic-V」を導入し、VLMの推論能力を向上させます。このフレームワークは、視覚的およびテキスト的入力に基づいて推論パスを生成する「Reasoner」と、これらのパスを洗練させるための建設的な批評を提供する「Critic」という2つの独立したコンポーネントを統合することにより、推論プロセスと批評プロセスを分離します。このアプローチでは、Reasonerはテキストプロンプトに従って推論応答を生成し、Criticからのフィードバックに基づいてポリシーとして反復的に進化させることができます。この相互作用プロセスは、Criticがスカラー報酬ではなく自然言語の批評を提供する強化学習フレームワークによって理論的に駆動され、よりきめ細かなフィードバックを可能にすることで、複雑な推論タスクにおけるReasonerの能力を高めます。Criticモデルは、ルールベース報酬(RBR)によってランク付けされた批評の選好データセットを活用した直接選好最適化(DPO)を使用してトレーニングされ、批評能力を向上させます。評価の結果、Critic-Vフレームワークは、推論の正確性と効率性に関して、GPT-4Vを含む既存の方法を8つのベンチマークのうち5つで大幅に上回ることが示されました。Reasonerの動的なテキストベースポリシーと、選好最適化されたCriticからの建設的なフィードバックを組み合わせることで、より信頼性が高くコンテキストに依存したマルチモーダル推論プロセスが可能になります。私たちのアプローチは、VLMの信頼性を高め、自動運転やエンボディドインテリジェンスなどの現実世界の推論重視のマルチモーダルアプリケーションにおけるパフォーマンスを向上させる、有望なソリューションを提供します。