Open yukihiko-fuyuki opened 2 months ago
ペンやハンマー、ドライバーといった棒状の物体を手で器用に扱う能力は、日常生活において非常に重要です。しかし、現状の学習ベースの手法では、質の高い実演データの不足と、シミュレーションと現実世界の大きなギャップにより、このタスクの実現は困難です。本研究では、棒状物体を回転させる能力を実証することで、学習ベースの手 manipulation システムの限界に挑戦します。まず、強化学習を用いて、特別な情報を持つoracle ポリシーを学習し、シミュレーションにおいて忠実度の高い軌道データセットを生成します。これは、1) シミュレーションにおける感覚運動ポリシーの事前学習、2) 現実世界におけるオープンループ軌道再生の2つの目的を果たします。次に、これらの現実世界の軌道データを用いて感覚運動ポリシーを微調整し、現実世界のダイナミクスに適応させます。50回未満の軌道データで、私たちのポリシーは、異なる物理的特性を持つ10種類以上の棒状物体を複数回転させることを学習します。本稿では、設計上の選択について包括的な分析を行い、開発中に得られた教訓を共有します。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
以下の新しいラベルが作成され、適用されました:
本論文は、ペン回しのような、棒状の物を器用に操るロボットを実現するための、新しい学習方法を提案しています。
従来の課題:
提案方法:
成果:
貢献:
タイトル: ペン回し習得から学ぶ教訓
リンク: https://arxiv.org/abs/2407.18902
概要:
ペンやハンマー、ドライバーといった棒状の物体を手で器用に扱う能力は、日常生活において非常に重要です。しかし、現状の学習ベースの手法では、質の高い実演データの不足と、シミュレーションと現実世界の大きなギャップにより、このタスクの実現は困難です。本研究では、棒状物体を回転させる能力を実証することで、学習ベースの手 manipulation システムの限界に挑戦します。まず、強化学習を用いて、特別な情報を持つoracle ポリシーを学習し、シミュレーションにおいて忠実度の高い軌道データセットを生成します。これは、1) シミュレーションにおける感覚運動ポリシーの事前学習、2) 現実世界におけるオープンループ軌道再生の2つの目的を果たします。次に、これらの現実世界の軌道データを用いて感覚運動ポリシーを微調整し、現実世界のダイナミクスに適応させます。50回未満の軌道データで、私たちのポリシーは、異なる物理的特性を持つ10種類以上の棒状物体を複数回転させることを学習します。本稿では、設計上の選択について包括的な分析を行い、開発中に得られた教訓を共有します。