🚧 2017: Deep Predictive Policy Training using Reinforcement Learning

熟練ロボットのタスク学習は、感覚運動プロセスに固有の遅延があるため、予測的な行動政策によって実施するのが最適である。しかし、このような予測的なポリシーの訓練は、行動の全期間にわたる運動活性の軌跡を見つけることを含むため、困難である。我々は、画像観測を運動活性のシーケンスに対応付ける深層ニューラルネットワーク政策アーキテクチャを用いた、データ効率の良い深層予測政策学習（DPPT）フレームワークを提案する。DPPTは、知覚、政策、行動スーパーレイヤーと呼ばれる3つのサブネットワークから構成される。知覚スーパーレイヤーと行動スーパーレイヤーは、それぞれ合成訓練サンプルとシミュレーション訓練サンプルで訓練された視覚データと運動データの抽象化を強制する。政策スーパーレイヤーは、抽象化された多様体の間にあるデータをマッピングする、より少ないパラメータを持つ小さなサブネットワークである。政策探索強化学習の手法を用いて、各タスクに対して学習される。我々は、PR2ロボットを用いて、熟練した物体把持とボール投げのための予測政策を学習することにより、提案するアーキテクチャと学習フレームワークの適切性を実証する。本手法の有効性は、これらのタスクが定性的な終端報酬を持つ約180回の実際のロボットの試行を用いてのみ学習されることによって説明される。

kunimasa-kawasaki / arXiv_Robotics

🚧 2017: Deep Predictive Policy Training using Reinforcement Learning #23