datawhalechina / easy-rl

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
Other
9.04k stars 1.81k forks source link

连续动作空间的PPO算法 #149

Closed YZH-WDNMD closed 4 months ago

YZH-WDNMD commented 8 months ago

目前还在学习的初级阶段,作者提供的代码结构很美观,向通过离散PPO修改成连续PPO遇到困难,请问有没有连续PPO样例,可以更直观的比较连续动作空间和离散动作空间在动做选择以及PPO算法上的区别,加深理解

johnjim0816 commented 8 months ago

目前还在学习的初级阶段,作者提供的代码结构很美观,向通过离散PPO修改成连续PPO遇到困难,请问有没有连续PPO样例,可以更直观的比较连续动作空间和离散动作空间在动做选择以及PPO算法上的区别,加深理解

有的,先关注这个吧:https://github.com/datawhalechina/joyrl 近期会放上去,目前优先开发这个,后面会同步到easyrl

johnjim0816 commented 4 months ago

目前还在学习的初级阶段,作者提供的代码结构很美观,向通过离散PPO修改成连续PPO遇到困难,请问有没有连续PPO样例,可以更直观的比较连续动作空间和离散动作空间在动做选择以及PPO算法上的区别,加深理解

请移步:https://github.com/datawhalechina/joyrl-book/blob/main/notebooks/%E7%AC%AC12%E7%AB%A0_PPO_Pendulum-v1.ipynb