连续动作空间的PPO算法

datawhalechina / easy-rl

强化学习中文教程（蘑菇书🍄），在线阅读地址：https://datawhalechina.github.io/easy-rl/

Other

9.04k stars 1.81k forks source link

Closed YZH-WDNMD closed 4 months ago

YZH-WDNMD commented 8 months ago

目前还在学习的初级阶段，作者提供的代码结构很美观，向通过离散PPO修改成连续PPO遇到困难，请问有没有连续PPO样例，可以更直观的比较连续动作空间和离散动作空间在动做选择以及PPO算法上的区别，加深理解

johnjim0816 commented 8 months ago

目前还在学习的初级阶段，作者提供的代码结构很美观，向通过离散PPO修改成连续PPO遇到困难，请问有没有连续PPO样例，可以更直观的比较连续动作空间和离散动作空间在动做选择以及PPO算法上的区别，加深理解

有的，先关注这个吧：https://github.com/datawhalechina/joyrl 近期会放上去，目前优先开发这个，后面会同步到easyrl

johnjim0816 commented 4 months ago

目前还在学习的初级阶段，作者提供的代码结构很美观，向通过离散PPO修改成连续PPO遇到困难，请问有没有连续PPO样例，可以更直观的比较连续动作空间和离散动作空间在动做选择以及PPO算法上的区别，加深理解