Closed kuto5046 closed 4 years ago
Timothy P. Lillicrap et al. https://arxiv.org/abs/1509.02971
連続行動制御に有用なDPGをDNNによる関数近似により大規模な状態空間(画像)においても学習可能とした。連続行動空間で課題となる探索の問題に対処するためにサンプリングノイズをActorの方策に加えている。20以上の物理的タスクをロバストに解くことに成功した。
その他、experience replay, target network,バッチ正則化も適用している。
Timothy P. Lillicrap et al. https://arxiv.org/abs/1509.02971