Open e4exp opened 3 years ago
マルチスケール・ギガピクセル・フォトグラフィー[5, 42, 45]の急速な発展は,大規模かつ長期的で没入的な視覚体験をもたらす. マルチスケール・ギガピクセル・フォトグラフィーは、多数の高解像度のローカル・ビューと低解像度のグローバル・ビューを合わせて、単一の超高解像度画像を合成する。 マルチスケールのギガピクセル写真では、2つのビュー間の大きな解像度ギャップ、すなわちクロスレゾリューションが、従来のホモグラフィ推定タスクに新たな課題を突きつけています。 ホモグラフィ推定は、3D空間の同一平面上にある2つのビュー間の投影マッピングの推定と定義され、通常、SIFT[18]またはSURF[2]を用いた特徴抽出、対応付け、およびRANSAC[9]または直接線形変換に基づくホモグラフィ行列の推定の3つのステップで構成されます。 この方法では,正確な推定を行うためには,同じ解像度の高密度な特徴に依存するため,通常はクロスレゾリューション問題を解決できない.
深層学習の成功に触発されて,困難なシーンに対処するために,畳み込みニューラルネットワークに基づく深層ホモグラフィ法が研究されている. DeToneら[8]によって提案された先駆的な深層ホモグラフィ手法は,連結された画像ペアから対応関係を抽出する典型的なVGG-net[30]を用いてホモグラフィ行列の推定を行うものである. この先駆的な研究に基づき,Leら[16]は,ネットワークカスケードによってホモグラフィを段階的に推定するマルチスケール戦略を提案している. しかし,入力画像は連結され,ダウンサンプリングされているため,マルチスケール戦略を適用するだけでは,クロスレゾリューション問題を解決することはできない. Zhangら[44]による最近のアプローチでは,共有の畳み込み層を用いて入力画像から別々に特徴を抽出することが提案されている. このネットワークは,次の層で特徴を直接連結するが,これは入力画像を最初から連結しているのと同じことである.
本論文では,ホモグラフィ推定におけるクロス・レゾリューション問題を解決するために,LocalTransと名づけた新しいマルチスケール局所変換器ネットワークを提案する. 変換器構造[33]は、自然言語処理や視覚的質問応答の分野において、マルチモーダル入力間の相互作用の学習[14, 26, 40]で大きな成功を収めている。 そこで我々は、クロスレゾリューション問題を「マルチモーダル」というレンズを通して捉え、特徴空間内のクロスレゾリューション画像の相関関係を通じて対応関係を明示的に捉えるために、変換器構造を採用した。 しかし、[33]で紹介されているバニラ変換構造は、高次元行列間の外積に起因する高いGPUメモリおよび計算コストをもたらします。
そこで,本研究では,局所的な変換器を導入し,それをマルチスケール構造の中に埋め込むことで,高速かつ正確なホモグラフィ推定を実現する. 具体的には,提案する局所変換器において,局所的な畳み込みに基づく演算を設計し,高レベル特徴の各位置に特定のカーネルを適用して,局所的な注目を効率的に捉える. そして、この局所変換器をマルチスケール構造の各レベルに配置することで、ネットワークが長短の注意を払って対応関係を捉えることができる。 ローカルトランスフォーマーとマルチスケール構造の組み合わせは,バニラトランスフォーマーのグローバルアテンションメカニズムよりも大幅に高速である[33]. しかし,最も重要なことは,提案されたLocalTransネットワークが,ホモグラフィ推定タスクにおいて,同じバックボーンを持つバニラ変換器よりも優れていることである.
提案したLocalTransネットワークは,局所変換層とマルチスケール構造の組み合わせにより,MS-COCOデータセット[17]において,PSNRとコーナーエラーの点で最先端のホモグラフィ推定手法を凌駕した. さらに,実写のクロスレゾリューション(解像度の差が最大10倍)の困難なケースでも,LocalTransネットワークが優れた性能を発揮することを実証し,マルチスケールのギガピクセル写真に適用した(図1参照). 本研究では,ホモグラフィ推定におけるクロスレゾリューション問題を,入力間の対応関係を明示的に捉えることで解決することを提案する.
マルチスケールのギガピクセル写真では,解像度の差が大きい画像を用いてホモグラフィ行列を推定する必要があるため,解像度を越えた画像の位置合わせが重要な課題となっています. 既存の深層ホモグラフィ手法は,入力画像や特徴量を連結し,それらの間の対応関係を明示的に定式化することを無視しているため,クロスレゾリューションの課題においては精度が低下することになる. 本論文では,解像度間ホモグラフィ推定をマルチモーダルな問題と考え,マルチモーダルな入力,すなわち,異なる解像度を持つ入力画像間の対応関係を明示的に学習するために,マルチスケール構造に埋め込まれた局所変換器ネットワークを提案する. 提案する局所変換器は,特徴量の各位置に特化した局所注目マップを採用する. この局所変換器とマルチスケール構造を組み合わせることで,ネットワークは長短の対応関係を効率的かつ正確に捉えることができる. MS-COCOデータセットと実際に撮影されたクロスレゾリューションデータセットの両方で実験を行った結果、提案したネットワークは、既存の最先端の特徴量ベースおよび深層学習ベースのホモグラフィー推定法よりも優れており、10×の解像度ギャップの下でも画像を正確に位置合わせできることがわかった。