Proximal Policy Optimization Algorithms

kuto5046 / papers

読んだ論文を整理するところ

0 stars 0 forks source link

Closed kuto5046 closed 4 years ago

kuto5046 commented 4 years ago

kuto5046 commented 4 years ago

TRPOの改良版。TRPOはKLダイバージェンスを正則化項に与えることで方策勾配の更新幅に制約をかけていた。PPOでは更新前後の確率方策比にクリッピング(範囲の制限)をかけ、この制約を目的関数の中に組み込むことで方策勾配の更新を安定化させた。

kuto5046 commented 4 years ago

PPOはAtariでは他のアルゴリズムと比べて立ち上がりが速い結果となった。