kunimasa-kawasaki / arXiv_Robotics

0 stars 0 forks source link

🚧 2020: SQUIRL: Robust and Efficient Learning from Video Demonstration of Long-Horizon Robotic Manipulation Tasks #13

Open kunimasa-kawasaki opened 2 years ago

kunimasa-kawasaki commented 2 years ago

SQUIRL: Robust and Efficient Learning from Video Demonstration of Long-Horizon Robotic Manipulation Tasks Bohan Wu, Feng Xu, Zhanpeng He, Abhi Gupta, Peter K. Allen 8 pages https://arxiv.org/abs/2003.04956

kunimasa-kawasaki commented 2 years ago

近年の深層強化学習(RL)の進歩により、複雑なロボット操作タスクを学習する可能性が示されている。しかし、RLは依然としてロボットが大量の実世界経験を収集する必要がある。この問題を解決するために、最近の研究では、少数のエキスパートによる実演でロバストな性能を達成できることから、特に逆強化学習(IRL)によるエキスパート実演からの学習(LfD)が提案されています。しかしながら、IRLを実際のロボットに展開することは、多くのロボット経験を必要とするため、未だ困難である。本論文では、ロバストでサンプル効率の良い一般的なメタIRLアルゴリズムであるSQUIRLを用いてこのスケーラビリティの課題に取り組むことを目的とし、新しいが関連するロングホライズンタスクをたった1回のビデオデモンストレーションでロバストに実行させる。本アルゴリズムは、まず、行動クローニング(BC)を用いてタスクエンコーダとタスク条件付きポリシーの学習をブートストラップする。次に、実ロボット経験を収集し、ロボットと専門家の結合軌道から直接Q関数を回復することにより、報酬学習を回避する。次に、このアルゴリズムでは、Q関数を用いて、ロボットが収集したすべての累積経験を再評価し、方針を迅速に改善する。最終的には、テスト時の試行錯誤を必要としない一方で、新しいタスクに対してBCよりも頑健に(90%以上の成功率)政策を実行する。最後に、我々の実ロボット実験とシミュレーション実験により、本アルゴリズムが異なる状態空間、行動空間、視覚に基づく操作タスク(例:ピック・プール・プレイス、ピック・キャリー・ドロップ)にわたって一般性を持つことを実証した。