Open Buddies-as-you-know opened 1 year ago
NeRF2Real: Sim2real Transfer of Vision-guided Bipedal Motion Skills using Neural Radiance Fields
Arunkumar Byravan Jan Humplik Leonard Hasenclever Arthur Brussee Francesco Nori, Tuomas Haarnoja, Ben Moran, Steven Bohez, Fereshteh Sadeghi, Bojan Vujatovic and Nicolas Heess
2023
これらの課題の一部に取り組み、視覚的に複雑なシーンのシミュレーションモデルの半自動生成システムを紹介しています。このシステムは、Neural Radiance Fields(NeRF)を利用して、RGBカメラビューの非常にリアルなレンダリングと正確な幾何学を提供します。
シミュレーションで制御ポリシーを訓練し、それを実際のロボットに転送する(sim2real)というパラダイムの進展にあります。このアプローチは、ハードウェア上で直接学習する際に生じる状態推定、安全性、データ効率性といった問題を回避できます。しかし、現実的で正確なシミュレーションの作成は時間がかかります。そのため、sim2realがその潜在能力を最大限に発揮するためには、実際のシーンをシミュレーションで再現し、ロボットが世界とどのように感じ取り、相互作用するかを正確にモデル化することが必要です。 特に、ロボットが世界と接触する方法や、RGBカメラを使用した際の環境の感知方法など、非構造化シーンの幾何学的および視覚的な特性を正確にモデル化することは困難です。RGBカメラのモデリングの必要性は、シミュレートしやすくsim2realギャップが小さいデプスセンサーやLiDARの使用によって部分的に軽減できますが、これによってロボットが学習できるタスクのセットが制限される可能性があります。
1.Google Pixel 6 ’のカメラを使用して5から6分の動画を歩きながら撮る。
5.NeRF + MuJoCoでSim2real
シーンの学習:
普通の携帯電話を使用して静的なシーンの短いビデオを収集します。 Neural Radiance Field(NeRF)を使用して、シーンの接触幾何学と新しい視点合成のための関数を学習します。 シミュレーションの作成:
NeRFのレンダリングを利用して、静的なシーンに他の動的オブジェクト(例:ロボットの体、ボール)のレンダリングをオーバーレイします。 物理シミュレータのレンダリングエンジンを使用して、静的なシーンの幾何学(NeRFのボリューム密度から推定)と動的オブジェクトの幾何学・物理的特性(既知と仮定)から接触ダイナミクスを計算し、シミュレーションを作成します。 ポリシーの学習と転送:
このシミュレーションを使用して、頭部に取り付けられたアクチュエータ付きRGBカメラを持つ20自由度のヒューマノイドロボットのための、ビジョンベースの全身ナビゲーションポリシーとボール押しポリシーを学習します。 これらのポリシーを実際のロボットに成功裏に転送します。
3次元復元ツール https://colmap.github.io/ https://cyberagent.ai/blog/research/14861/
論文リンク
NeRF2Real: Sim2real Transfer of Vision-guided Bipedal Motion Skills using Neural Radiance Fields
著者/所属機関
Arunkumar Byravan Jan Humplik Leonard Hasenclever Arthur Brussee Francesco Nori, Tuomas Haarnoja, Ben Moran, Steven Bohez, Fereshteh Sadeghi, Bojan Vujatovic and Nicolas Heess
投稿年
2023
概要:
これらの課題の一部に取り組み、視覚的に複雑なシーンのシミュレーションモデルの半自動生成システムを紹介しています。このシステムは、Neural Radiance Fields(NeRF)を利用して、RGBカメラビューの非常にリアルなレンダリングと正確な幾何学を提供します。
研究背景
シミュレーションで制御ポリシーを訓練し、それを実際のロボットに転送する(sim2real)というパラダイムの進展にあります。このアプローチは、ハードウェア上で直接学習する際に生じる状態推定、安全性、データ効率性といった問題を回避できます。しかし、現実的で正確なシミュレーションの作成は時間がかかります。そのため、sim2realがその潜在能力を最大限に発揮するためには、実際のシーンをシミュレーションで再現し、ロボットが世界とどのように感じ取り、相互作用するかを正確にモデル化することが必要です。 特に、ロボットが世界と接触する方法や、RGBカメラを使用した際の環境の感知方法など、非構造化シーンの幾何学的および視覚的な特性を正確にモデル化することは困難です。RGBカメラのモデリングの必要性は、シミュレートしやすくsim2realギャップが小さいデプスセンサーやLiDARの使用によって部分的に軽減できますが、これによってロボットが学習できるタスクのセットが制限される可能性があります。
提案手法
1.Google Pixel 6 ’のカメラを使用して5から6分の動画を歩きながら撮る。
5.NeRF + MuJoCoでSim2real
実験
シーンの学習:
普通の携帯電話を使用して静的なシーンの短いビデオを収集します。 Neural Radiance Field(NeRF)を使用して、シーンの接触幾何学と新しい視点合成のための関数を学習します。 シミュレーションの作成:
NeRFのレンダリングを利用して、静的なシーンに他の動的オブジェクト(例:ロボットの体、ボール)のレンダリングをオーバーレイします。 物理シミュレータのレンダリングエンジンを使用して、静的なシーンの幾何学(NeRFのボリューム密度から推定)と動的オブジェクトの幾何学・物理的特性(既知と仮定)から接触ダイナミクスを計算し、シミュレーションを作成します。 ポリシーの学習と転送:
このシミュレーションを使用して、頭部に取り付けられたアクチュエータ付きRGBカメラを持つ20自由度のヒューマノイドロボットのための、ビジョンベースの全身ナビゲーションポリシーとボール押しポリシーを学習します。 これらのポリシーを実際のロボットに成功裏に転送します。
感想
参考
COLMAP
3次元復元ツール https://colmap.github.io/ https://cyberagent.ai/blog/research/14861/