Open fulfulggg opened 2 hours ago
大規模視覚言語モデル(LVLM)は、コンピュータビジョンと自然言語処理の交差点において極めて重要なものとなっています。しかし、LVLMの検索拡張生成(RAG)機能の潜在能力は十分に活用されていません。既存の研究では、テキストモダリティのみに焦点を当てているか、特定のタスクに限定されています。さらに、ほとんどのLVLMは取得した情報を適切に選択して利用することが苦手であり、無関係な情報や誤解を招く情報の影響を受けやすいという問題があります。
これらの課題に対処するため、本研究では、LVLMに取得した情報を適切に選択して利用させる(SURf)ことを学習させるための自己洗練フレームワークを提案します。具体的には、LVLMバックボーンが誤って回答した質問に対して、回答の修正に役立つ参照(正の参照)と、そうでない参照(負の参照)を取得します。そして、これらの正と負の参照を組み合わせてLVLMバックボーンを微調整します。3つのタスクと7つのデータセットを用いた実験の結果、私たちのフレームワークは、LVLMが多様なモダリティの参照情報を効果的に利用する能力を大幅に向上させ、無関係な情報や誤解を招く情報に対するロバスト性を向上させることを示しました。ソースコードはhttps://github.com/GasolSun36/SURfで公開されています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
背景:
提案手法:
成果:
貢献:
タイトル: SURf:検索された情報を厳選活用するよう大規模ビジョン言語モデルに教える手法
リンク: https://arxiv.org/abs/2409.14083
概要:
大規模視覚言語モデル(LVLM)は、コンピュータビジョンと自然言語処理の交差点において極めて重要なものとなっています。しかし、LVLMの検索拡張生成(RAG)機能の潜在能力は十分に活用されていません。既存の研究では、テキストモダリティのみに焦点を当てているか、特定のタスクに限定されています。さらに、ほとんどのLVLMは取得した情報を適切に選択して利用することが苦手であり、無関係な情報や誤解を招く情報の影響を受けやすいという問題があります。
これらの課題に対処するため、本研究では、LVLMに取得した情報を適切に選択して利用させる(SURf)ことを学習させるための自己洗練フレームワークを提案します。具体的には、LVLMバックボーンが誤って回答した質問に対して、回答の修正に役立つ参照(正の参照)と、そうでない参照(負の参照)を取得します。そして、これらの正と負の参照を組み合わせてLVLMバックボーンを微調整します。3つのタスクと7つのデータセットを用いた実験の結果、私たちのフレームワークは、LVLMが多様なモダリティの参照情報を効果的に利用する能力を大幅に向上させ、無関係な情報や誤解を招く情報に対するロバスト性を向上させることを示しました。ソースコードはhttps://github.com/GasolSun36/SURfで公開されています。