ResVG: 視覚接地における複数インスタンスの関係および意味理解の向上

タイトル: ResVG: 視覚接地における複数インスタンスの関係および意味理解の向上

リンク: https://arxiv.org/abs/2408.16314

概要:

画像内の自然言語による指示対象物を特定する視覚接地は、近年進歩していますが、複数インスタンスの妨害（対象物と同じカテゴリの複数のオブジェクト）がある場合に、対象物を正確に特定することは依然として大きな課題です。既存の手法は、画像内に複数の妨害要素が存在する場合、パフォーマンスが大幅に低下することが示されており、オブジェクト間のきめ細かいセマンティクスと空間的な関係の理解が不十分であることを示しています。本稿では、この問題に対処するために、関係性とセマンティックに敏感な視覚接地モデル（ResVG）という新しいアプローチを提案します。まず、テキストクエリから導出されたセマンティックな事前情報をモデルに注入することで、モデルのきめ細かいセマンティクスの理解を強化します。これは、テキスト画像生成モデルを活用して、クエリに記述されたターゲットオブジェクトのセマンティック属性を表す画像を生成することによって実現されます。次に、関係性に敏感なデータ拡張手法を導入することで、複数の妨害要素を含むトレーニングサンプルの不足に対処します。この方法では、同じカテゴリの複数のオブジェクトと、それらの空間的な関係に基づいた疑似クエリを含む画像を合成することで、追加のトレーニングデータを生成します。提案されたReSVGモデルは、オブジェクトのセマンティクスと空間的な関係の両方を理解するモデルの能力を大幅に向上させ、特に複数インスタンスの妨害があるシナリオにおいて、視覚接地タスクのパフォーマンスを向上させます。5つのデータセットを用いた広範な実験を行い、我々の手法の有効性を検証します。コードはhttps://github.com/minghangz/ResVGで公開されています。

fulfulggg / Information-gathering

ResVG: 視覚接地における複数インスタンスの関係および意味理解の向上 #184

タイトル: ResVG: 視覚接地における複数インスタンスの関係および意味理解の向上

リンク: https://arxiv.org/abs/2408.16314

概要: