Proximal Policy Optimization Algorithms

icoxfog417 commented 7 years ago

一言でいうと

Policy gradientは様々なタスクで利用されているが、戦略の更新幅の設定が難しく、小さいと収束が遅くなり大きいと学習が破綻する問題があった。そこで、TRPOという更新前後の戦略分布の距離を制約にするモデルをベースに、より計算を簡略化したPPOという手法を開発した。

John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov

TRPOはこちら(Trust Region Policy Optimization?)。old/newのKL距離を正則化項的に導入する。

ここでr_t(θ)を以下のように置くと、完全にoldに等しい時は1となる。

つまり、r_t(θ)が1から逸脱しているかどうかに着目すれば元の分布からのずれを観測できる。

これが、PPOの式となる。εはハイパーパラメータで、0.2ぐらい。

前のポリシーと離れ過ぎない範囲で更新するというのが基本的な考えで(KL距離にて判断)、これを一定値で制限するのがTRPO、制限ではなくloss上のペナルティとして組み込んで勾配計算で学習できるようにしたのがPPOとのこと