arXivTimes / arXivTimes

repository to research & share the machine learning articles
https://arxivtimes.herokuapp.com/
MIT License
3.9k stars 201 forks source link

Proximal Policy Optimization Algorithms #366

Open icoxfog417 opened 7 years ago

icoxfog417 commented 7 years ago

一言でいうと

Policy gradientは様々なタスクで利用されているが、戦略の更新幅の設定が難しく、小さいと収束が遅くなり大きいと学習が破綻する問題があった。そこで、TRPOという更新前後の戦略分布の距離を制約にするモデルをベースに、より計算を簡略化したPPOという手法を開発した。

論文リンク

https://openai-public.s3-us-west-2.amazonaws.com/blog/2017-07/ppo/ppo-arxiv.pdf

著者/所属機関

John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov

概要

新規性・差分

手法

TRPOはこちら(Trust Region Policy Optimization?)。old/newのKL距離を正則化項的に導入する。

image

ここでr_t(θ)を以下のように置くと、完全にoldに等しい時は1となる。

image

つまり、r_t(θ)が1から逸脱しているかどうかに着目すれば元の分布からのずれを観測できる。

image

これが、PPOの式となる。εはハイパーパラメータで、0.2ぐらい。

結果

image

コメント

icoxfog417 commented 7 years ago

OpenAI公式ブログより

https://blog.openai.com/openai-baselines-ppo/

icoxfog417 commented 7 years ago

解説ブログ&実装

https://learningai.io/projects/2017/07/28/ai-gym-workout.html

前のポリシーと離れ過ぎない範囲で更新するというのが基本的な考えで(KL距離にて判断)、これを一定値で制限するのがTRPO、制限ではなくloss上のペナルティとして組み込んで勾配計算で学習できるようにしたのがPPOとのこと