🚧 2022: Guided Visual Attention Model Based on Interactions Between Top-down and Bottom-up Information for Robot Pose Prediction

ロボットの制御を学習するには、一般的にロボットの状態とカメラ画像間のマッピングが必要であり、従来のディープビジョンモデルでは大規模な学習データセットが必要であった。Deep Spatial Autoencodersなどの既存の視覚的注意モデルは、タスクに関連する画像領域のみを選択的に抽出するようにモデルを学習させることで、データ効率を向上させています。しかし、このモデルはオンデマンドで注意対象を選択することができないため、学習可能なタスクの多様性が制限される。本論文では、特定の注意ターゲットに誘導することができる新しいKey-Query-Value定式化視覚的注意モデルを提案する。このモデルは、KeyとQueryから注意ヒートマップを作成し、Valueで表される注意データを選択的に抽出する。このような構造は、外部からの入力を取り込んでQueryを作成することが可能であり、Queryはターゲットオブジェクトを表現するために学習されることになる。Queryの作成を分離することで、トップダウンで複数の対象を同時に取得し、切り替えることが可能となり、モデルの柔軟性が向上した。提案モデルをシミュレータと実環境で実験した結果、既存のエンドツーエンドのロボットビジョンモデルと比較して優れた性能を示した。また、実環境での実験結果から、本モデルがロボット制御タスクに対して高いスケーラビリティと拡張性を持つことが示された。

kunimasa-kawasaki / arXiv_Robotics

🚧 2022: Guided Visual Attention Model Based on Interactions Between Top-down and Bottom-up Information for Robot Pose Prediction #15