fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

見て、比較して、決める: 多視点多経路推論による大規模視覚言語モデルの幻覚軽減 #194

Open fulfulggg opened 2 months ago

fulfulggg commented 2 months ago

タイトル: 見て、比較して、決める: 多視点多経路推論による大規模視覚言語モデルの幻覚軽減

リンク: https://arxiv.org/abs/2408.17150

概要:

近年、大規模ビジョン言語モデル(LVLM)は、マルチモーダルな文脈理解において目覚ましい能力を示してきました。しかし、画像の内容と矛盾する出力を生成するという、幻覚問題に悩まされています。この幻覚を軽減するために、従来の研究では、主にカスタムデータセットを用いたLVLMの再トレーニングに焦点が当てられてきました。これは効果的ですが、追加の計算コストが避けられません。本論文では、\textbf{MVP}と呼ばれるトレーニングフリーのフレームワークを提案します。これは、\textbf{M}ulti-\textbf{V}iew Multi-\textbf{P}ath Reasoningを通じてLVLMの本来の能力を最大限に活用することで幻覚を減らすことを目的としています。具体的には、まず、画像内の包括的な情報を徹底的に認識するためのマルチビュー情報探索戦略を考案します。これは、LVLMの元のビジョンエンコーダが捉えた一般的なグローバル情報を豊かにします。さらに、回答のデコード中に、幻覚の発生が回答トークンの確実性と強い相関関係を持つことを観察しました。そこで、各情報ビューに対してマルチパス推論を提案し、複数のデコードパスの中から各潜在的な回答の確実性スコアを定量化して集約し、最終的な出力回答を決定します。画像内の情報を完全に把握し、デコード時に潜在的な回答の確実性を慎重に検討することで、MVPはLVLMの幻覚を効果的に減らすことができます。広範な実験により、提案するMVPが、4つの著名なLVLMにおいて幻覚問題を大幅に軽減することが確認されました。ソースコードは\url{https://github.com/GasolSun36/MVP}で公開されています

fulfulggg commented 2 months ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

以下の新しいラベルが作成され、適用されました:

fulfulggg commented 2 months ago

論文要約

論文要約: 見て、比較して、決める: 多視点多経路推論による大規模視覚言語モデルの幻覚軽減

問題点

提案手法: MVP (Multi-View Multi-Path Reasoning)

効果

貢献

ポイント: