Deep Semantic Matching with Foreground Detection and Cycle-Consistency

e4exp commented 3 years ago

https://arxiv.org/abs/2004.00144
2020

概要

背景の乱れ、スケールやポーズの違い、クラス内のばらつきなどにより、オブジェクトインスタンス間の高密度な意味的対応関係を確立することは、依然として困難な問題である。本論文では、ディープネットワークを用いた弱い教師付きセマンティックマッチングを提案する。これは、手動によるキーポイント対応のアノテーションがなされていない画像ペアのみを対象とする。本研究では、この弱いスーパーバイズでのネットワーク学習を容易にするために、 1）前景領域を明示的に推定して背景クラッタの影響を抑制する、 2）複数の画像間で予測された変換が幾何学的に妥当で一貫していることを強制するために、周期的一貫性のある損失を開発する。

PF-PASCALデータセットを用いて提案モデルを学習し，PF-PASCAL，PF-WILLOW，TSSの各データセットで性能を評価した．広範な実験結果から，提案手法が最先端の手法に対して有利に働くことがわかった．

e4exp commented 3 years ago

1 はじめに

密な対応付けは，コンピュータビジョンにおける重要かつ活発な研究テーマである．オプティカルフロー推定[11 , 27]やステレオマッチング[33 , 38]は，同じシーンやオブジェクトのインスタンスを描いた画像間で，ピクセル単位の対応関係を推定して照合することを目的としている．対応関係の推定は広く研究されていますが，画像間で同じオブジェクトをマッチングするというアイデアを，オブジェクトカテゴリの異なるインスタンスをカバーする画像のマッチングに拡張する傾向が高まっています．この進歩は、大きな注目を集めているだけでなく、オブジェクト認識[26]、オブジェクトの共同セグメンテーション[2 ,12 ,35]、3D再構築[29]に至るまで、多くの実世界のアプリケーションを促進しています。しかし，背景の乱れ，クラス内の大きなばらつきに起因する曖昧さ，手動で注釈を付けた対応関係を持つ大規模データセットを取得する際の限られたスケーラビリティなどの理由により，意味的マッチングは依然として困難である．従来のセマンティックマッチング手法は，SIFT [26]やHOG [7]などの手書きの記述子と，効果的な幾何学的正則化に依存している．しかし、これらの記述子は、与えられたビジュアルドメインに適応することができず、セマンティックマッチングの性能は最適ではありませんでした。近年の畳み込みニューラルネットワーク（CNN）の成功を受けて，意味的マッチングの問題に取り組むための学習ベースのアプローチがいくつか提案されている[6, 9, 19, 31, 32]．

しかし，有望な結果が得られている一方で，これらのアプローチには以下のような制限がある． 6, 9, 19, 31] の手法では，ネットワークを学習するために膨大な量の教師付きデータを必要とする．しかし、大規模で多様なデータを収集することは、費用と労力がかかる。最近では，この問題を緩和するために，[32]のような弱い教師ありの手法が提案されているが，これらの手法では，両画像の背景特徴が類似していることを暗黙のうちに照合している．しかし，これらの手法では，両画像の背景が暗黙のうちに類似していることが前提となっているため，背景の乱れの影響を受けてしまいます．

本論文では、前景検出を行い、セマンティックマッチングにおいてサイクル一貫性制約を強化することで、これらの課題に対処する。背景クラッタによる悪影響を抑制するために、前景検出モジュールを開発し、モデルが背景領域を除外して、検出された前景領域のマッチングに集中できるようにしました。そのため、背景クラッターの影響を軽減することができます。複雑な外観と大きなクラス内変動に起因するマッチングの難しさに対処するために、我々は幾何学的に一貫性のない対応関係をフィルタリングすることに焦点を当てています。我々の重要な洞察は、正しい対応は周期的に矛盾していなければならないということです。つまり、ある画像から他の画像に特定の点をマッチングし、次に逆マッチングを実行すると、同じ場所に到達するはずです。この特性を利用するために、ネットワークのトレーニングに追加の監視信号を提供する周期整合性損失を導入します。さらに、このアイデアを拡張して、複数の画像間の横断性の整合性を調べます。 Roccoら[32]のモデルを基にして，弱い教師の下でエンド・ツー・エンドで学習可能なネットワークを構築し，3つのベンチマークで提案手法の有効性を評価した．実験結果は，図1に示すように，我々のアプローチがベースラインモデル[32]を改善し，最先端の手法に対して有利に働くことを示している．

我々の貢献は以下のようにまとめられる．まず，我々は，前景検出を意味的マッチングに統合する弱教師付き学習フレームワークを提案する．提案するネットワークは，明示的な前景検出のためのモジュールにより，背景の乱れによる不利な影響を抑えることができる．第二に、本モデルは、マッチング時に双方向の幾何学的変換を推論することで、広大なマッチング空間に起因する曖昧さに暗黙的に対処する。この変換では，前方・後方一貫性損失を導入することで，推論された幾何学的変換が周期的に一貫していることを明示的に保証している．また，マッチング性能をさらに向上させるために，交差性整合性の特性を調べ，交差性整合性損失を導入した．本研究では，PF-PASCALデータセット[8]の画像ペアを用いてネットワークを学習する．次に，PF-PASCALデータセット[8]，PF-WILLOWデータセット[8]，TSSデータセット[35]など，セマンティックマッチングのベンチマークデータセットを用いて，提案モデルを評価した．既存のセマンティックマッチングアルゴリズムとの広範な比較により，提案手法が最先端の性能を達成していることが示された．

e4exp commented 3 years ago

3 提案されたアルゴリズム

このセクションでは、まず我々のアプローチの概要を説明します。続いて、目的関数の各損失の詳細と実装の詳細について説明する。

3.1 フレームワークの概要

D = {Ii} N i=1 とする。N i=1は同じオブジェクト・カテゴリのインスタンスからなる画像のセットを表し、Iiはi番目の画像、Nは画像の数である。我々の目的は、Dの各画像ペア(IA, IB)間のキーポイントの対応関係を、オブジェクトクラスを事前に知ることなく推定できるCNNベースのモデルを学習することである。このモデルを学習するには、共通のオブジェクトを含む画像ペアを学習するという形で、画像レベルの弱い監視が必要なだけなので、セマンティック・マッチングのための我々の定式化は、弱い監視に基づいている。

また、地上の真実のキーポイントの対応は使用しません。この課題を達成するために、我々は2つのモジュールで構成されるエンド・ツー・エンドの学習可能なネットワークを提案する。特徴抽出器Fは，与えられた画像ペアの各画像の特徴を抽出する。変形予測器Gは，画像を歪ませる変形を予測し，歪んだ画像がもう一方の画像とよりよく一致するようにする。図2に示すように，提案されたネットワーク・アーキテクチャは，画像ペアを入力として受け取る。与えられた画像ペア(IA, IB)に対して、特徴抽出器Fを用いて、それぞれの特徴マップfAとfBを抽出する。そして、fAとfBの相関を計算して、相関マップSABを生成する。もう一方の相関マップSBAは対称的に得られる。次に、変換予測器Gは、ワープした画像〜IAがIBを整列できるようにIAをワープする幾何学変換TABを推定する。以下では、特徴抽出器Fと変換予測器Gを最適化するために使用する目的関数について説明する。目的関数を最適化した後、予測された変換TABまたはTBAを介して、画像ペア（IA、IB）間のマッチングを実行することができる。

3.2 目的関数

全体の学習目的は3つの損失関数からなる。まず，前景誘導型マッチング損失Lmatchingは，推定された幾何学的変換に基づいて，対応する特徴間の距離を最小化する．既存のセマンティックマッチング手法[31, 32]とは異なり，本モデルでは前景マスクを予測し，背景マッチングを除外することで背景クラッタの影響を抑制する．第二に，前後方向の整合性損失Lcycle-consisと推移方向の整合性損失Ltrans-consisにより，複数の画像間で予測された変換が幾何学的に妥当であり，かつ整合性があることを強制する．この2つの損失は，ネットワークの学習を正則化する．具体的には，我々の学習目標は

ここで、λCとλTは、それぞれの損失関数の相対的な重要性を制御するために使用されるハイパーパラメータです。以下、各損失関数の詳細について説明します。

3.3 Foreground-guided matching loss

背景クラッタの影響を軽減し，前景領域のみを強制的に類似させるために，我々のモデルは前景誘導型マッチング損失Lmatchingを最小化する。画像ペア(IA, IB)が与えられると，特徴抽出器Fは，それぞれの特徴マップfA∈R hA×wA×d，fB∈R hB×wB×d（dはチャンネル数）を抽出する。 fAとfBを相関させて、相関マップSAB∈R hA×wA×hB×wBを生成します。各要素SAB(i, j, s, t) = SAB(p, q)は，fAの2つの空間位置p = [i, j] >とfBのq = [s, t] >に格納された特徴ベクトル間の正規化内積を記録している。もう一方の相関マップSBA∈R hB×wB×hA×wAは、対称的に計算することができる。相関マップSABは、寸法hA、wA、（hB ×wB）の3次元テンソルに整形され、SAB∈R hA×wA×（hB×wB）となる。つまり，SAB∈R hA×wA×(hB×wB)の相関マップは，(hB×wB)次元の局所特徴を持つ高密度のhA×wAグリッドと解釈できる。 SBAにも同様の操作を行います。再形成されたSABを用いて、変換予測G[31]を用いて、IAを〜IAにワープさせる幾何学変換TABを推定し、〜IAがIBにうまく整列するようにする。相関マップSAB(p, q)は、fAのpとfBのqに位置する2つの特徴ベクトル間の正規化された内積を記録しているので、SAB(p, q)は、fAのpとfBのqに位置する2つの特徴ベクトル間の正規化された内積を記録している。このモデルでは、前景マスクMA∈R hA×wAを以下のように推定する。

なお、相関マップSABとSBAの両方は、あらかじめ負のマッチング値を排除するためにReLU（rectified linear unit）を介してコンパイルされています。直感的には，fBの特徴ベクトルのうち，fA(p)とよく一致するものがなければ，マスクMA(p)は低い値（すなわち，位置pが背景に属する可能性が高い）になります。マスクMBも同様の手順で得られます。推定された幾何学的変換TABを用いて、幾何学的に矛盾した対応関係を識別し、フィルタリングすることができる。端点（p∈PA、q∈PB）を有する対応関係を考える。ここで、PAおよびPBは、それぞれ、fAおよびfBのすべての空間座標のセットである。距離kTAB(p) - qkは、変換TABに関するこの対応関係の投影誤差を表す。 Roccoら[32]に従い、対応関係が変換TABと幾何学的に一致しているかどうかを判断するために、対応関係マスクmAを導入する。具体的には、mAは次のような形式である。

ここで、φ＝1はピクセル数である。幾何学的変換TABと対応マスクmAが与えられると、各空間位置p∈PAのマッチングスコアを次のように計算する。

背景クラッタの影響を抑制するために、推定された前景マスクを組み込み、検出された前景領域のマッチングに焦点を当てます。ここでは，前景誘導型マッチング損失Lmatchingを次のように定義する．

マッチングスコアを最大化することは、前景誘導型マッチング損失Lmatchingを最小化することに相当するため、(5)の負の符号が目的関数に使用されていることに注意してください。

e4exp / paper_manager_abstract