Closed kuto5046 closed 2 years ago
Haarnoja, Tuomas et al. https://arxiv.org/abs/1801.01290
通常のActor-Criticの目的関数に方策のエントロピー最大化項を加えたもの
最大化したい目的関数
負の対数項は方策のエントロピー を表す 上記のような物をSoft Q-learningという
Haarnoja, Tuomas et al. https://arxiv.org/abs/1801.01290