🚧 2022: Learning Viewpoint-Agnostic Visual Representations by Recovering Tokens in 3D Space

人間は、視覚野が3次元構造の知覚をサポートしているため、視点変更に対して驚くほど柔軟に理解することができる。一方、2次元画像から視覚表現を学習するコンピュータビジョンのモデルは、新しいカメラ視点に対して汎化できないことが多い。近年、画像パッチからトークンを生成する視覚変換器（Visual Transformer）という畳み込みによらない視覚処理アーキテクチャが注目されている。しかし、これらのTransformerも2次元畳み込みネットワークも、視覚理解のために視点にとらわれない表現を学習するための明示的な演算を行わない。そこで、我々は、視覚的トークンの3次元位置情報を推定し、それを利用して視点にとらわれない表現を学習する3次元トークン表現層(3DTRL)を提案する。3DTRLの主要な要素は、トークンに幾何学的な変換を施すための疑似深度推定器と学習されたカメラ行列である。これらにより、3DTRLは2Dパッチからトークンの3D位置情報を復元することができる。実際には、3DTRLはトランスフォーマーに簡単にプラグインすることができる。我々の実験は、画像分類、マルチビュービデオアライメント、行動認識を含む多くのビジョンタスクにおける3DTRLの有効性を実証している。3DTRLを用いたモデルは、最小限の計算量の追加で、全てのタスクにおいてバックボーンのTransformerを凌駕する。

kunimasa-kawasaki / arXiv_Robotics

🚧 2022: Learning Viewpoint-Agnostic Visual Representations by Recovering Tokens in 3D Space #4