e4exp / paper_manager_abstract

0 stars 0 forks source link

Bootstrap Your Own Correspondences #504

Open e4exp opened 3 years ago

e4exp commented 3 years ago

幾何学的特徴の抽出は、点群登録パイプラインの重要な構成要素です。 最近の研究では、教師あり学習を活用して、より良い、よりコンパクトな3D特徴を学習する方法が示されている。 しかし、これらのアプローチは、グランドトゥルースアノテーションに依存しているため、スケーラビリティに限界がある。 我々は、BYOCを提案する。BYOCは、RGB-Dビデオから視覚的・幾何学的特徴を学習する自己教師付きアプローチであり、地上からのポーズや対応関係に依存しない。 我々の重要な観察結果は、ランダムに初期化されたCNNが良い対応関係を容易に提供し、視覚的特徴と幾何学的特徴の両方を学習するためのブートストラップを可能にすることである。 我々のアプローチは、点群登録の古典的なアイデアと、最近の表現学習アプローチを組み合わせたものである。 本手法を屋内シーンのデータセットで評価したところ、本手法は従来の記述子や学習した記述子よりも優れており、現在の最新の教師付きアプローチと競合していることがわかった。

e4exp commented 3 years ago

1. はじめに

人が同じシーンの2つのビューを揃える能力は、2つのビュー間の対応点を識別する能力と密接に関連しています。 コレスポンデンス推定と点群登録の間の双対性は古くから認識されており、両問題における多くのアプローチの基礎となっている。 シーンの正確なレジストレーションがあれば、2つのビューの間の対応関係を簡単に抽出することができます。 逆に、点の対応関係が与えられれば、シーンの2つのビューを簡単に登録することができます。 このサイクルを利用して、対応関係の推定と点群の登録の両方をゼロから共同で学習することはできないだろうか? このサイクルの中核となるのは、シーン内の点に対して優れた特徴記述子を生成する能力である。 3D特徴学習の一般的なアプローチは、事前に登録されたシーンに依存しており、特徴エンコーダの教師付きトレーニングのために、グランドトゥルースの対応関係をサンプリングします。 これは、正と負の特徴ペアをサンプリングし、トリプレット[12, 32, 35, 55]またはコントラスト[3, 12, 54]損失を適用することで行われる。 これらのアプローチは非常に有効であるが,トレーニングデータを生成するために,デプススキャンまたはRGB-Dスキャンの生データをすでに登録しておく必要がある. このため,COLMAP[46]のような自動化されたアプローチで登録が可能なデータに限定されます. 理想的には、グランドトゥルースの対応付けラベルに頼らずに、教師付きアプローチの成功を活用することです。 この目的のために、我々はBootstrap Your Own Correspondences (BYOC)を提案する。 これは、疑似対応ラベルを利用して点群登録を学習する、自己教師付きエンド・ツー・エンドのアプローチである。 このアプローチでは、ランダムに初期化された特徴量エンコーダーの出力から擬似対応ラベルを抽出する(§3.1)。 サンプリングされた対応関係を用いて点群を登録し、登録の品質に基づいた損失を適用して特徴量エンコーダーを学習します。 これにより、学習プロセスをゆっくりとブートストラップ1することができ、ポーズや対応関係の監視に頼ることなく、RGB-Dスキャンから学習することができる。

このアプローチはRGB-Dフレームの登録には有効だが、点群の位置合わせには不利である。 これは主に、図3に示すように、ランダムに初期化された2次元CNNが、現在の点群エンコーダーよりも特徴的な特徴を生成することに起因する。 我々はこの観察結果を利用して、視覚的対応関係を用いて幾何学的特徴をブートストラップすることを提案する。 これは、正のペアをサンプリングするために、グランドトゥルースラベル[3, 12, 32, 35, 54, 55]とは対照的に、推定された視覚的対応関係を使用し、特徴メトリック学習を適用することで行う。 最近提案された自己教師付き手法であるSimSiam [8]を3D表現学習に適用した(§3.2)。 この追加により、点群に適用される以前のコントラスト学習方式よりも大幅に単純(負のサンプルやモーメンタムエンコーダーがない)でありながら、性能が向上する。 我々の研究は、反復的最近接点アルゴリズム(ICP)[4, 9, 59]と擬似ラベル上の自己教師付き学習[7, 26, 34]の2つのソースからインスピレーションを得ている。 一見異なるように見えますが,両方の研究の中核には同じ直観があります. ICPは、2つの点群間の最も近い点が互いに対応していると仮定する登録アルゴリズムです。 ICPは、2つの点群の間の最も近い点が互いに対応していると仮定する登録アルゴリズムであり、反復的な改良と再サンプリングにより、ほぼ整列した点群を登録することができる。 一方,疑似ラベルを用いた自己教師付き学習では,現在のトップ予測[34],特徴クラスタ[7],あるいは以前の予測[26]の形で疑似ラベルを予測することを学習する. 時間をかけてラベルを再定義することで,モデルは良い表現を学習することができる. 両者とも、よく構造化された空間(すなわち、類似したオブジェクトがすでに互いに近くに存在する)における擬似ラベルが、貴重な学習信号を提供するという観察に依存している。 これは、CNNがランダムに初期化された場合でも、優れた特徴抽出器として機能することが分かっているため、特に学習に関連しています[42, 50]。 2つの屋内シーンデータセットを用いて、我々のアプローチを評価した。 ScanNet [13]と3D Match [58]です。 本手法はシンプルであるにもかかわらず,手作業で作成した特徴量やいくつかの教師ありベースラインよりも優れており,現在の最先端の手法と競合している.

要約すると、我々は、最初はランダムな特徴エンコーダーからサンプリングされた対応関係を用いて、点群登録のための点ごとの特徴を学習する自己教師付きアプローチを提案する(§ 3.1)。 また、幾何学的特徴の学習をさらに向上させるために、視覚的対応関係をどのように利用できるかを示す(§3.2)。 我々は、点群登録(§4.1)と対応関係推定(§4.2)において、このアプローチの有効性を示す。