opendilab / PPOxFamily

PPO x Family DRL Tutorial Course(决策智能入门级公开课:8节课帮你盘清算法理论,理顺代码逻辑,玩转决策AI应用实践 )
https://opendilab.github.io/PPOxFamily/
Apache License 2.0
1.91k stars 172 forks source link

Chapter7 Discussion #80

Open PaParaZz1 opened 1 year ago

PaParaZz1 commented 1 year ago

本 issue 将会追踪和记录各种有关课程第七讲的问题和延伸思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息

xianglunkai commented 1 year ago

@PaParaZz1 您好!非常感谢分享。 最近我遇到一个问题,动作空间是间断连续的时候(例如,动作空间[-1, 1]中规定[-0.3 0.6]不可取),我尝试了标准的DDPG,SAC,PPO等算法似乎都无能为力。我是通过设置is_done=ture作为一个巨大的惩罚来限制agent动作映射的。 非常期望您的建议。谢谢!

zjowowen commented 1 year ago

My suggestion is to clip action into a proper interval before calling step method to env by using an env wrapper.

Here is an example:

example.txt