🚧 2020: SQUIRL: Robust and Efficient Learning from Video Demonstration of Long-Horizon Robotic Manipulation Tasks

近年の深層強化学習（RL）の進歩により、複雑なロボット操作タスクを学習する可能性が示されている。しかし、RLは依然としてロボットが大量の実世界経験を収集する必要がある。この問題を解決するために、最近の研究では、少数のエキスパートによる実演でロバストな性能を達成できることから、特に逆強化学習（IRL）によるエキスパート実演からの学習（LfD）が提案されています。しかしながら、IRLを実際のロボットに展開することは、多くのロボット経験を必要とするため、未だ困難である。本論文では、ロバストでサンプル効率の良い一般的なメタIRLアルゴリズムであるSQUIRLを用いてこのスケーラビリティの課題に取り組むことを目的とし、新しいが関連するロングホライズンタスクをたった1回のビデオデモンストレーションでロバストに実行させる。本アルゴリズムは、まず、行動クローニング（BC）を用いてタスクエンコーダとタスク条件付きポリシーの学習をブートストラップする。次に、実ロボット経験を収集し、ロボットと専門家の結合軌道から直接Q関数を回復することにより、報酬学習を回避する。次に、このアルゴリズムでは、Q関数を用いて、ロボットが収集したすべての累積経験を再評価し、方針を迅速に改善する。最終的には、テスト時の試行錯誤を必要としない一方で、新しいタスクに対してBCよりも頑健に（90%以上の成功率）政策を実行する。最後に、我々の実ロボット実験とシミュレーション実験により、本アルゴリズムが異なる状態空間、行動空間、視覚に基づく操作タスク（例：ピック・プール・プレイス、ピック・キャリー・ドロップ）にわたって一般性を持つことを実証した。

kunimasa-kawasaki / arXiv_Robotics

🚧 2020: SQUIRL: Robust and Efficient Learning from Video Demonstration of Long-Horizon Robotic Manipulation Tasks #13