e4exp / paper_manager_abstract

0 stars 0 forks source link

Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning #564

Open e4exp opened 3 years ago

e4exp commented 3 years ago

本論文では,提案不要の参照表現接地タスクに取り組み,既製のオブジェクト提案に頼らずに,クエリ文に応じてターゲットオブジェクトをローカライズすることを目指す. 既存の提案不要の手法は、クエリと画像のマッチングを行い、画像特徴マップの中で最もスコアの高い点をターゲットボックスの中心として選択し、その幅と高さを別のブランチで予測するというものである。 しかし,このような手法では,対象物と参照物の間の文脈的な関係を利用することができず,また,その推論手順に解釈性がない. これらの問題を解決するために、我々はターゲットをローカライズするための反復的な縮小メカニズムを提案する。 このメカニズムでは、縮小方向は強化学習エージェントによって決定され、現在の画像パッチ内のすべてのコンテンツが総合的に考慮される。 また,逐次的な縮小プロセスにより,ターゲットを反復的に見つける方法を示すことができる. 提案手法は、RefCOCOgデータセットにおいて、従来の最新手法(SOTA)と比較して、4.32%の精度向上を実現しました。

e4exp commented 3 years ago

1. はじめに

参照表現グラウンディング(REG)の目的は,クエリ文(参照表現)に従って,画像内の対象物を認識し,位置を特定することであり,これには視覚と言語の両方の領域での共同理解が必要となる. REGは、基本的なマルチモダリティタスクであり、視覚的質問応答[15, 4, 17, 52, 20, 1, 46]、画像キャプション[9, 5, 7, 34, 63, 47, 42]、画像とテキストのマッチング[25, 63, 3, 62, 6, 49, 21]など、多くの下流タスクの基礎となっている。 近年、コンピュータビジョン(CV)や自然言語処理(NLP)の分野でも注目されています。 従来の手法では,REGを領域検索問題として定式化し[59, 61, 54, 51, 26, 27, 10],事前にすべての候補オブジェクトの提案を提供する. 候補となるプロポーザルは,バウンディングボックスのグランドトゥルースから提供されるものと,事前に学習されたオブジェクト検出器(例えば,Faster RCNN [38])によって生成されるものがある. これらのREGモデルのマッチングネットワークは、クエリと各プロポーザルの間の類似性スコアを予測し、最も高いスコアのプロポーザルがターゲットオブジェクトとして選択される。 このように、従来のREG手法は、グランドトゥルースのバウンディングボックスや正確なオブジェクト検出器に大きく依存しており、事前に多くのデータを学習させる必要があった。 これらの欠点を克服するために、いくつかのプロポーザルフリー手法は、オブジェクトプロポーザルなしでREGの結果を予測しようとする。 既存のプロポーザルフリーREG手法[22, 57, 41, 56]は全て、1段階検出器(例えば、YOLOv3[37])のパイプラインに直接従い、2分岐スタイルのネットワークを採用しています。 1つ目の分岐では、クエリ文と画像特徴マップ内の各特徴点との間の類似性スコアを計算し、2つ目の分岐では、そのバウンディングボックス座標を生成します。 そして、最も高いスコアを持つ特徴点のバウンディングボックスの予測値が最終結果となります。

これらの手法は、クエリ文と各画像特徴点の間でマッチング処理を行うため、ターゲットが独自の属性で記述された単純なクエリ(例:"man in blue")には適しているが、複雑なクエリ、特にターゲットが他の参照オブジェクトによって参照されている場合には対応が困難である。 図1(a)に示すように、ターゲットである「猫」と参照オブジェクトである「棚」の両方に対応する画像領域を持つ特徴点が存在しないため、ターゲットと参照オブジェクトの間の文脈的な関係(ターゲットを他の気になるオブジェクトから区別するためのキーとなる)を、このようなマッチング処理では十分に活用することができません。 そのため、REGの性能は大きく損なわれてしまいます。

また、これらの手法のもう一つの欠点は、解釈可能性の欠如です。 マッチングネットワークは、すべての特徴点の最終的なマッチングスコアを1つのステップで予測するため、その内部の推論手順は隠されていて見えません。 そのため、マッチングモデルが失敗した場合、その原因を分析するのは困難である。 これらの問題を同時に解決するために、我々はREGを画像レベルの縮小処理のシーケンスとして公式化する。 各反復において、画像はある方向に沿って縮小され、ターゲットではない画像領域が取り除かれます。 数回の縮小処理の後、ターゲット画像領域のみが残り、それが最終的な結果となります。 各反復における縮小方向は,学習可能なネットワークによって予測される. 反復ごとに最適な縮小方向が不確定であるため,従来の教師付き学習は適していない. そこで,マルコフ決定過程[14]としてモデル化し,強化学習(RL)を用いて取り組むことを提案する. RLでは,正確な教師ラベルではなく,各縮小ステップの後に「フィードバック」または「報酬」を必要とするだけである. また,RLでは,現在の報酬だけでなく,将来の潜在的な報酬も考慮するため,性能がさらに向上する.

提案手法では,現在の画像パッチ内のすべてのオブジェクトを総合的に考慮して縮小方向を決定するため,対象オブジェクトと参照オブジェクトの文脈的関係をよりよく利用することができる. 例えば,図1(b)に示すように,1回目の処理では,クエリに「椅子」が含まれていないため,黒猫が椅子の上に横たわっている画像領域が削除されます(すなわち,右方向に縮小されます). 2回目の反復では,各猫候補と参照オブジェクトである「棚」との空間的関係を分析した結果,猫が棚の中に横たわっている画像領域は,クエリとの空間的関係が不一致であるため,削除することにした(すなわち,上に向かって縮小する). 最終的には、対象となる猫を正確にカバーする画像領域のみが残ります。 既存のマッチング手法ではこのようなケースに対応できないが,提案手法ではクエリの関係性情報をフルに活用することで,複雑なクエリや画像(RefCOCOg[30]など)にも対応することができる(図1(a)).

要約すると、本稿の主な貢献は3つあります。

image

image