Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

kuto5046 / papers

読んだ論文を整理するところ

0 stars 0 forks source link

Closed kuto5046 closed 2 years ago

kuto5046 commented 4 years ago

kuto5046 commented 4 years ago

通常のActor-Criticの目的関数に方策のエントロピー最大化項を加えたもの

最大化したい目的関数

$\begin{align*}J(\pi) = [r(s_t,a_t) \alpha H( |s_t)]\end{align*}$ $\begin{align*}V(s_t) = E[Q(s,a) - \alpha\log \pi(a_t|s_t)]\end{align*}$

負の対数項は方策のエントロピーを表す上記のような物をSoft Q-learningという