-
[paper](https://arxiv.org/pdf/1707.06347)
## TL;DR
- **I read this because.. :** 배경지식 차
- **task :** RL
- **problem :** q-learning은 너무 불안정하고, trpo 는 상대적으로 복잡. data efficient하고 sclable한 arch…
-
## 一言でいうと
Policy gradientは様々なタスクで利用されているが、戦略の更新幅の設定が難しく、小さいと収束が遅くなり大きいと学習が破綻する問題があった。そこで、TRPOという更新前後の戦略分布の距離を制約にするモデルをベースに、より計算を簡略化したPPOという手法を開発した。
### 論文リンク
https://openai-public.s3-us-west-…
-
-
-
-
## 0. Article Information and Links
- Paper's project website: https://openai.com/blog/openai-baselines-ppo/
- Release date: YYYY/MM/DD
- Number of citations (as of 2020/MM/DD):
## 1. What do…
-
[Proximal Policy Optimization Algorithms](https://arxiv.org/abs/1707.06347)
-
To improve stability and robustness of policy, implement proximal policy optimization (PPO):
- https://arxiv.org/abs/1707.06347
- code: https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail
-
Where can I find the implementation details that differentiate the PPO2 algorithm from the original version reported in Proximal Policy Optimization Algorithms by Schulman?
-
# Reference
- 07/2017 [Proximal policy optimization algorithms](https://arxiv.org/abs/1707.06347)
# Brief
- 基于策略梯度(PG,Policy Gradient)