datawhalechina / easy-rl

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
Other
9.04k stars 1.81k forks source link

PPO算法的实现, 为啥要给概率取对数? #147

Closed chzhan closed 2 months ago

chzhan commented 10 months ago

如题, 公式里也没有需要取对数的地方, loss中也用不到对数(除了KL散度那一下), 就不大明白搞绕来绕去取对数再取指数求概率比值是为啥, 求解..

yl-jiang commented 9 months ago

我理解是为了将除法操作转换为减法操作吧

johnjim0816 commented 4 months ago

我理解是为了将除法操作转换为减法操作吧

是的