Open TimDingg opened 4 years ago
@TimDingg 你好请问你的问题解决了吗?我也遇到了同样的问题
如果环境设置终点的话: 环境大的话,Agent很难到达终点,导致训练过程中很难产生有价值的经验。 据我所知,使用DDPG可以处理复杂一些的迷宫,处理奖励信息的时候使用Prioritized experience replay技术提高有价值经验的比重, 提高随机探索的比重。 更好的方案是Reward reshape。这需要自定义一些奖惩规则,比如对Agent原地不动进行惩罚,机器人距离终点近一些给一些奖励。
但如果你的环境不设置终点,只是障碍物多一些,那么直接用DDPG就能处理。
教学中的迷宫规模都比较小,不复杂。如果想要求解大规模,如100*100的迷宫,且环境比较复杂的,应该选用什么强化学习算法?我试了几种算法,发现Q-learning貌似求出的不是最优解,而DQN的训练速度太慢,难以求得解。想请问下是什么原因导致的这些问题,随机策略选择还是其他参数设置的问题?或者有什么比较适合的强化学习算法嘛?求大神指导!谢谢!