fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

DIVE:記述豊かで多様な視覚常識生成に向けて #87

Open fulfulggg opened 4 weeks ago

fulfulggg commented 4 weeks ago

タイトル: DIVE:記述豊かで多様な視覚常識生成に向けて

リンク: https://arxiv.org/abs/2408.08021

概要:

人間レベルの視覚理解に向けて、画像の先にある常識的な推論を生成する「視覚常識生成」が導入されました。しかし、現状の視覚常識生成の研究では、人間が持つ重要な認知能力である「記述的で多様な推論の生成」が見落とされていました。本研究では、DIVEと名付けた新しい視覚常識生成フレームワークを提案します。これは、生成される推論の記述性と多様性を向上させることを目的としています。DIVEは、既存の視覚常識リソースと学習目標の限界に対処する、包括的推論フィルタリングと対照検索学習という2つの手法を用います。実験の結果、DIVEは記述性と多様性の両方において、最先端の視覚常識生成モデルよりも優れており、独自かつ斬新な推論の生成においても優れた質を示すことが確認されました。特筆すべきは、DIVEがVisual Commonsense Graphsにおいて人間レベルの記述性と多様性を達成していることです。さらに、人間の評価により、DIVEが記述性と多様性において人間の判断と closely に一致することが確認されました。\footnote{コードとデータセットはhttps://github.com/Park-ing-lot/DIVE. で公開されています。}

fulfulggg commented 4 weeks ago

論文要約

論文要約: DIVE:記述豊かで多様な視覚常識生成に向けて

fulfulggg commented 4 weeks ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: