Continuous control with deep reinforcement learning

連続行動制御に有用なDPGをDNNによる関数近似により大規模な状態空間(画像)においても学習可能とした。連続行動空間で課題となる探索の問題に対処するためにサンプリングノイズをActorの方策に加えている。20以上の物理的タスクをロバストに解くことに成功した。

その他、experience replay, target network,バッチ正則化も適用している。

kuto5046 / papers