LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution Homography Estimation

1. はじめに

マルチスケール・ギガピクセル・フォトグラフィー[5, 42, 45]の急速な発展は，大規模かつ長期的で没入的な視覚体験をもたらす．マルチスケール・ギガピクセル・フォトグラフィーは、多数の高解像度のローカル・ビューと低解像度のグローバル・ビューを合わせて、単一の超高解像度画像を合成する。マルチスケールのギガピクセル写真では、2つのビュー間の大きな解像度ギャップ、すなわちクロスレゾリューションが、従来のホモグラフィ推定タスクに新たな課題を突きつけています。ホモグラフィ推定は、3D空間の同一平面上にある2つのビュー間の投影マッピングの推定と定義され、通常、SIFT[18]またはSURF[2]を用いた特徴抽出、対応付け、およびRANSAC[9]または直接線形変換に基づくホモグラフィ行列の推定の3つのステップで構成されます。この方法では，正確な推定を行うためには，同じ解像度の高密度な特徴に依存するため，通常はクロスレゾリューション問題を解決できない．

深層学習の成功に触発されて，困難なシーンに対処するために，畳み込みニューラルネットワークに基づく深層ホモグラフィ法が研究されている． DeToneら[8]によって提案された先駆的な深層ホモグラフィ手法は，連結された画像ペアから対応関係を抽出する典型的なVGG-net[30]を用いてホモグラフィ行列の推定を行うものである．この先駆的な研究に基づき，Leら[16]は，ネットワークカスケードによってホモグラフィを段階的に推定するマルチスケール戦略を提案している．しかし，入力画像は連結され，ダウンサンプリングされているため，マルチスケール戦略を適用するだけでは，クロスレゾリューション問題を解決することはできない． Zhangら[44]による最近のアプローチでは，共有の畳み込み層を用いて入力画像から別々に特徴を抽出することが提案されている．このネットワークは，次の層で特徴を直接連結するが，これは入力画像を最初から連結しているのと同じことである．

本論文では，ホモグラフィ推定におけるクロス・レゾリューション問題を解決するために，LocalTransと名づけた新しいマルチスケール局所変換器ネットワークを提案する．変換器構造[33]は、自然言語処理や視覚的質問応答の分野において、マルチモーダル入力間の相互作用の学習[14, 26, 40]で大きな成功を収めている。そこで我々は、クロスレゾリューション問題を「マルチモーダル」というレンズを通して捉え、特徴空間内のクロスレゾリューション画像の相関関係を通じて対応関係を明示的に捉えるために、変換器構造を採用した。しかし、[33]で紹介されているバニラ変換構造は、高次元行列間の外積に起因する高いGPUメモリおよび計算コストをもたらします。

そこで，本研究では，局所的な変換器を導入し，それをマルチスケール構造の中に埋め込むことで，高速かつ正確なホモグラフィ推定を実現する．具体的には，提案する局所変換器において，局所的な畳み込みに基づく演算を設計し，高レベル特徴の各位置に特定のカーネルを適用して，局所的な注目を効率的に捉える．そして、この局所変換器をマルチスケール構造の各レベルに配置することで、ネットワークが長短の注意を払って対応関係を捉えることができる。ローカルトランスフォーマーとマルチスケール構造の組み合わせは，バニラトランスフォーマーのグローバルアテンションメカニズムよりも大幅に高速である[33]．しかし，最も重要なことは，提案されたLocalTransネットワークが，ホモグラフィ推定タスクにおいて，同じバックボーンを持つバニラ変換器よりも優れていることである．

提案したLocalTransネットワークは，局所変換層とマルチスケール構造の組み合わせにより，MS-COCOデータセット[17]において，PSNRとコーナーエラーの点で最先端のホモグラフィ推定手法を凌駕した．さらに，実写のクロスレゾリューション（解像度の差が最大10倍）の困難なケースでも，LocalTransネットワークが優れた性能を発揮することを実証し，マルチスケールのギガピクセル写真に適用した（図1参照）．本研究では，ホモグラフィ推定におけるクロスレゾリューション問題を，入力間の対応関係を明示的に捉えることで解決することを提案する．

本研究では，マルチスケール構造の中に埋め込まれた新しい局所的な変換層を設計し，これにより，長短の対応関係を捉えることができる．実験では，提案した構造がグローバルアテンションメカニズムよりも優れていることを示した．
提案された局所変換器は，バニラ変換器構造と比較して大幅に高速であり，GPUのメモリコストも低く，60fpsのリアルタイムホモグラフィ推定を実現した（表1参照）．

e4exp / paper_manager_abstract

LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution Homography Estimation #557

1. はじめに