Open Buddies-as-you-know opened 1 year ago
325平方メートルのオフィス空間(Coda)を実環境として使用。 Matterport3DカメラでCodaをスキャンしてシミュレーション環境を構築。
360度RGBカメラ(Ricoh Theta V) 270度レーザースキャナー
Resnet-152で抽出した画像特徴量
VLNエージェントによる高水準の行動決定 サブゴール予測モデルによる方式点予測 ROSのナビゲーションパッケージ(SLAM、歩行計画など)による低水準の制御
325平方メートルのオフィス空間(Coda)を実環境として使用。 Matterport3DカメラでCodaをスキャンしてシミュレーション環境を構築。
360度RGBカメラ(Ricoh Theta V) 270度レーザースキャナー
Resnet-152で抽出した画像特徴量
VLNエージェントによる高水準の行動決定 サブゴール予測モデルによる方式点予測 ROSのナビゲーションパッケージ(SLAM、歩行計画など)による低水準の制御
論文リンク
https://proceedings.mlr.press/v155/anderson21a/anderson21a.pdf
title: "Sim-to-Real Transfer for Vision-and-Language Navigation"
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
テスト環境
Coda(商業オフィスビル内の共有スペース)が未知のテスト環境として選ばれています。Codaは個人的なアイテムがなく、環境の変化が少ないため、シミュレータと実際の環境の違いが最小限に抑えられます。
シミュレータの構築
Matterport3D Pro 2カメラとMatterport3Dウェブサービスを使用してCodaを再構築し、シミュレータ環境を作成しています。65のカメラ視点からのポイントクラウド、テクスチャメッシュ、全天周画像、各カメラ視点のポーズ、および視点間の可視性を表す「可視性グラフ」をダウンロードします。ロボットがアクセスできない場所の視点を除外し、可視性グラフから5m以上のエッジを除外してナビゲーショングラフを構築しています。
ナビゲーション指示の収集
最短経路の軌跡をサンプリングし、注釈者に3Dウェブインターフェースを使用してこれらのパスを記述させています。言語ガイド付きナビゲーションのデータとして、Amazon Mechanical Turkを使用して各軌跡に対して4つの英語のナビゲーション指示を収集しています。
ロボットプラットフォーム
実験には、TurtleBot2ロボットを使用しています。360°ビジョンを持つエージェントを模倣するために、360°の消費者向けRGBカメラを装備しています。障害物回避とマッピングのために、2Dレーザースキャナーを搭載しています。ロボットはROS-kineticを実行し、PyTorchを含む標準のROS/TurtleBotパッケージを使用しています。
評価指標
標準的なVLNメトリクスを使用して、シミュレーションと実際のロボットの両方で評価を行っています。成功率、トラジェクトリの長さ、ナビゲーションエラー、オラクル成功率、効率と軌跡忠実度に基づく成功率(SPL)など、複数の指標を報告しています。
ロボットのポーズ追跡
ロボットのポーズを知るために、事前にロボットをCoda内で遠隔操作し、レーザースキャナーとROS gmapping SLAMパッケージを使用してマップを作成しています。実験中のロボットのポーズを追跡するために、ROS amclパッケージによるパーティクルフィルタを使用しています。
4. どうやって有効だと検証した?
R2R(Room-to-Room)データセットで検証 - 多様な室内環境:異なる家具や間取りを持つ複数の家や公共の建物から成る環境が含まれています。 - 自然言語指示:人間が書いた、目的地に到達するためのステップバイステップの指示が含まれています。これらの指示は多様で、実際のナビゲーションの際に人が使うような言葉が使われています。 - ナビゲーションパス:指示に従ってエージェントがたどるべき具体的なパス(経路)が含まれており、学習や評価の基準として使用されます。
5. 議論はあるか?
環境を事前にマッピングしていない最も難しい「コールドスタート」設定では、サブゴールモデルがシミュレータのナビゲーショングラフで同じ隣接ウェイポイントを予測できないため、シミュレーションから実環境への移行の信頼性はかなり低くなります
グラフベースのMatterport3Dシミュレータは、このような低レベルのアクションをサポートできないため、既に収集されたデータの固定バッチから学習できるオフポリシー強化学習アルゴリズム[52]、あるいは、Krantzら[55]の最近の研究のように、連続的な動きをサポートするシミュレータ[53, 54]に切り替える必要があります。
6. 次に読むべき論文はあるか?
[52]S. Fujimoto, D. Meger, and D. Precup. Off-policy deep reinforcement learning without exploration. In ICML, 2019. [53]F. Xia, A. R. Zamir, Z.-Y. He, A. Sax, J. Malik, and S. Savarese. Gibson env: real-world perception for embodied agents. In CVPR, 2018. [54] Manolis Savva, Abhishek Kadian, Oleksandr Maksymets*, Y. Zhao, E. Wijmans, B. Jain, J. Straub, J. Liu, V. Koltun, J. Malik, D. Parikh, and D. Batra. Habitat: A Platform for Embodied AI Research. In ICCV, 2019. [55] J. Krantz, E. Wijmans, A. Majumdar, D. Batra, and S. Lee. Beyond the nav-graph: Vision-andlanguage navigation in continuous environments. In ECCV, 2020.
7. わからない文字
7.論文に使えそうな表現(あれば)
論文情報・リンク
著者,"タイトル," ジャーナル名,voluem,no.,ページ,年