Buddies-as-you-know commented 1 year ago

論文リンク

https://proceedings.mlr.press/v155/anderson21a/anderson21a.pdf

title: "Sim-to-Real Transfer for Vision-and-Language Navigation"

1. どんなもの？

R2Rデータセットで学習したVLN（Vision-and-Language Navigation）エージェントを、学習したサブゴールモデルと古典的なSLAMおよび経路計画ルーチンを用いて、360°ビジョンを持つ低コストロボットにシム-トゥ-リアル転送する初の試み
2. 先行研究と比べてどこがすごいの？
シミュレーションで訓練されたVision-and-Language Navigation (VLN)エージェントを初めて実ロボットプラットフォームに移植したこと。
VLNエージェントが学習した離散的なアクション空間と、実ロボットの連続的なアクション空間のギャップを埋めるために、サブゴール予測モデルを提案したこと。
ロボット用の標準的なROSコンポーネントと組み合わせて、VLNエージェントをROSベースのフレームワークに適合させたこと。
実環境とシミュレーション環境を正確に対応付けるため、325平方メートルのオフィス空間をスキャンしてアノテーションしたこと。
環境マップが事前に用意される場合とそうでない場合の2つの設定で、シミュレーションから実環境への移植実験を行ったこと。
3. 技術や手法の"キモ"はどこにある？

スクリーンショット 2023-11-04 18 42 24

Matterport3D Pro 2 カメラと Matterport3D ウェブサービスで Coda を再構成し、並列シミュレータ環境を構築します。
テスト環境

Coda（商業オフィスビル内の共有スペース）が未知のテスト環境として選ばれています。Codaは個人的なアイテムがなく、環境の変化が少ないため、シミュレータと実際の環境の違いが最小限に抑えられます。

シミュレータの構築

Matterport3D Pro 2カメラとMatterport3Dウェブサービスを使用してCodaを再構築し、シミュレータ環境を作成しています。65のカメラ視点からのポイントクラウド、テクスチャメッシュ、全天周画像、各カメラ視点のポーズ、および視点間の可視性を表す「可視性グラフ」をダウンロードします。ロボットがアクセスできない場所の視点を除外し、可視性グラフから5m以上のエッジを除外してナビゲーショングラフを構築しています。

ナビゲーション指示の収集

最短経路の軌跡をサンプリングし、注釈者に3Dウェブインターフェースを使用してこれらのパスを記述させています。言語ガイド付きナビゲーションのデータとして、Amazon Mechanical Turkを使用して各軌跡に対して4つの英語のナビゲーション指示を収集しています。

ロボットプラットフォーム

実験には、TurtleBot2ロボットを使用しています。360°ビジョンを持つエージェントを模倣するために、360°の消費者向けRGBカメラを装備しています。障害物回避とマッピングのために、2Dレーザースキャナーを搭載しています。ロボットはROS-kineticを実行し、PyTorchを含む標準のROS/TurtleBotパッケージを使用しています。

評価指標

標準的なVLNメトリクスを使用して、シミュレーションと実際のロボットの両方で評価を行っています。成功率、トラジェクトリの長さ、ナビゲーションエラー、オラクル成功率、効率と軌跡忠実度に基づく成功率（SPL）など、複数の指標を報告しています。

ロボットのポーズ追跡

ロボットのポーズを知るために、事前にロボットをCoda内で遠隔操作し、レーザースキャナーとROS gmapping SLAMパッケージを使用してマップを作成しています。実験中のロボットのポーズを追跡するために、ROS amclパッケージによるパーティクルフィルタを使用しています。

4. どうやって有効だと検証した？

R2R（Room-to-Room）データセットで検証　- 多様な室内環境：異なる家具や間取りを持つ複数の家や公共の建物から成る環境が含まれています。　- 自然言語指示：人間が書いた、目的地に到達するためのステップバイステップの指示が含まれています。これらの指示は多様で、実際のナビゲーションの際に人が使うような言葉が使われています。　- ナビゲーションパス：指示に従ってエージェントがたどるべき具体的なパス（経路）が含まれており、学習や評価の基準として使用されます。

5. 議論はあるか？
環境を事前にマッピングしていない最も難しい「コールドスタート」設定では、サブゴールモデルがシミュレータのナビゲーショングラフで同じ隣接ウェイポイントを予測できないため、シミュレーションから実環境への移行の信頼性はかなり低くなります
グラフベースのMatterport3Dシミュレータは、このような低レベルのアクションをサポートできないため、既に収集されたデータの固定バッチから学習できるオフポリシー強化学習アルゴリズム[52]、あるいは、Krantzら[55]の最近の研究のように、連続的な動きをサポートするシミュレータ[53, 54]に切り替える必要があります。

6. 次に読むべき論文はあるか？

[52]S. Fujimoto, D. Meger, and D. Precup. Off-policy deep reinforcement learning without exploration. In ICML, 2019. [53]F. Xia, A. R. Zamir, Z.-Y. He, A. Sax, J. Malik, and S. Savarese. Gibson env: real-world perception for embodied agents. In CVPR, 2018. [54] Manolis Savva, Abhishek Kadian, Oleksandr Maksymets*, Y. Zhao, E. Wijmans, B. Jain, J. Straub, J. Liu, V. Koltun, J. Malik, D. Parikh, and D. Batra. Habitat: A Platform for Embodied AI Research. In ICCV, 2019. [55] J. Krantz, E. Wijmans, A. Majumdar, D. Batra, and S. Lee. Beyond the nav-graph: Vision-andlanguage navigation in continuous environments. In ECCV, 2020.

7. わからない文字

7.論文に使えそうな表現（あれば）

論文情報・リンク
著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Buddies-as-you-know commented 1 year ago

実験環境:

325平方メートルのオフィス空間(Coda)を実環境として使用。 Matterport3DカメラでCodaをスキャンしてシミュレーション環境を構築。

センシング:

360度RGBカメラ(Ricoh Theta V) 270度レーザースキャナー

特徴量:

Resnet-152で抽出した画像特徴量

実験環境:

325平方メートルのオフィス空間(Coda)を実環境として使用。 Matterport3DカメラでCodaをスキャンしてシミュレーション環境を構築。

センシング:

360度RGBカメラ(Ricoh Theta V) 270度レーザースキャナー

特徴量:

Resnet-152で抽出した画像特徴量

Buddies-as-you-know / paper-survey

Sim-to-Real Transfer for Vision-and-Language Navigation #16

論文リンク

title: "Sim-to-Real Transfer for Vision-and-Language Navigation"

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

テスト環境

シミュレータの構築

ナビゲーション指示の収集

ロボットプラットフォーム

評価指標

ロボットのポーズ追跡

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. わからない文字

7.論文に使えそうな表現（あれば）

論文情報・リンク

実験環境:

センシング:

特徴量:

ナビゲーション:

実験環境:

センシング:

特徴量:

ナビゲーション: