Open icoxfog417 opened 7 years ago
Policy gradientは様々なタスクで利用されているが、戦略の更新幅の設定が難しく、小さいと収束が遅くなり大きいと学習が破綻する問題があった。そこで、TRPOという更新前後の戦略分布の距離を制約にするモデルをベースに、より計算を簡略化したPPOという手法を開発した。
https://openai-public.s3-us-west-2.amazonaws.com/blog/2017-07/ppo/ppo-arxiv.pdf
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov
TRPOはこちら(Trust Region Policy Optimization?)。old/newのKL距離を正則化項的に導入する。
ここでr_t(θ)を以下のように置くと、完全にoldに等しい時は1となる。
つまり、r_t(θ)が1から逸脱しているかどうかに着目すれば元の分布からのずれを観測できる。
これが、PPOの式となる。εはハイパーパラメータで、0.2ぐらい。
OpenAI公式ブログより
https://blog.openai.com/openai-baselines-ppo/
解説ブログ&実装
https://learningai.io/projects/2017/07/28/ai-gym-workout.html
前のポリシーと離れ過ぎない範囲で更新するというのが基本的な考えで(KL距離にて判断)、これを一定値で制限するのがTRPO、制限ではなくloss上のペナルティとして組み込んで勾配計算で学習できるようにしたのがPPOとのこと
一言でいうと
Policy gradientは様々なタスクで利用されているが、戦略の更新幅の設定が難しく、小さいと収束が遅くなり大きいと学習が破綻する問題があった。そこで、TRPOという更新前後の戦略分布の距離を制約にするモデルをベースに、より計算を簡略化したPPOという手法を開発した。
論文リンク
https://openai-public.s3-us-west-2.amazonaws.com/blog/2017-07/ppo/ppo-arxiv.pdf
著者/所属機関
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov
概要
新規性・差分
手法
TRPOはこちら(Trust Region Policy Optimization?)。old/newのKL距離を正則化項的に導入する。
ここでr_t(θ)を以下のように置くと、完全にoldに等しい時は1となる。
つまり、r_t(θ)が1から逸脱しているかどうかに着目すれば元の分布からのずれを観測できる。
これが、PPOの式となる。εはハイパーパラメータで、0.2ぐらい。
結果
コメント