Closed kuto5046 closed 4 years ago
Schulman, John et al. https://arxiv.org/abs/1707.06347
TRPOの改良版。TRPOはKLダイバージェンスを正則化項に与えることで方策勾配の更新幅に制約をかけていた。PPOでは更新前後の確率方策比にクリッピング(範囲の制限)をかけ、この制約を目的関数の中に組み込むことで方策勾配の更新を安定化させた。
PPOはAtariでは他のアルゴリズムと比べて立ち上がりが速い結果となった。
Schulman, John et al. https://arxiv.org/abs/1707.06347