kuto5046 / papers

読んだ論文を整理するところ
0 stars 0 forks source link

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor #24

Closed kuto5046 closed 2 years ago

kuto5046 commented 3 years ago

Haarnoja, Tuomas et al. https://arxiv.org/abs/1801.01290

kuto5046 commented 3 years ago

概要

通常のActor-Criticの目的関数に方策のエントロピー最大化項を加えたもの

最大化したい目的関数

負の対数項は方策のエントロピー を表す 上記のような物をSoft Q-learningという