Open fulfulggg opened 4 weeks ago
背景: 画像から常識的な推論を生成する「視覚常識生成」は、人間レベルの視覚理解に重要だが、従来の研究では、推論の記述性と多様性が不足していた。
提案手法: DIVEは、より人間らしい、記述豊かで多様な視覚常識生成を目指す新しいフレームワーク。
DIVEの2つの主要な仕組み:
実験結果:
結論: DIVEは、より人間に近い視覚常識生成を実現し、今後の視覚理解研究に貢献する。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: DIVE:記述豊かで多様な視覚常識生成に向けて
リンク: https://arxiv.org/abs/2408.08021
概要:
人間レベルの視覚理解に向けて、画像の先にある常識的な推論を生成する「視覚常識生成」が導入されました。しかし、現状の視覚常識生成の研究では、人間が持つ重要な認知能力である「記述的で多様な推論の生成」が見落とされていました。本研究では、DIVEと名付けた新しい視覚常識生成フレームワークを提案します。これは、生成される推論の記述性と多様性を向上させることを目的としています。DIVEは、既存の視覚常識リソースと学習目標の限界に対処する、包括的推論フィルタリングと対照検索学習という2つの手法を用います。実験の結果、DIVEは記述性と多様性の両方において、最先端の視覚常識生成モデルよりも優れており、独自かつ斬新な推論の生成においても優れた質を示すことが確認されました。特筆すべきは、DIVEがVisual Commonsense Graphsにおいて人間レベルの記述性と多様性を達成していることです。さらに、人間の評価により、DIVEが記述性と多様性において人間の判断と closely に一致することが確認されました。\footnote{コードとデータセットはhttps://github.com/Park-ing-lot/DIVE. で公開されています。}