MorvanZhou / Reinforcement-learning-with-tensorflow

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学
https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/
MIT License
8.84k stars 5k forks source link

关于大迷宫(例如100x100)求解问题,适合什么强化学习算法? #178

Open TimDingg opened 4 years ago

TimDingg commented 4 years ago

教学中的迷宫规模都比较小,不复杂。如果想要求解大规模,如100*100的迷宫,且环境比较复杂的,应该选用什么强化学习算法?我试了几种算法,发现Q-learning貌似求出的不是最优解,而DQN的训练速度太慢,难以求得解。想请问下是什么原因导致的这些问题,随机策略选择还是其他参数设置的问题?或者有什么比较适合的强化学习算法嘛?求大神指导!谢谢!

shiruisnotes commented 3 years ago

@TimDingg 你好请问你的问题解决了吗?我也遇到了同样的问题

MengWoods commented 4 months ago

如果环境设置终点的话: 环境大的话,Agent很难到达终点,导致训练过程中很难产生有价值的经验。 据我所知,使用DDPG可以处理复杂一些的迷宫,处理奖励信息的时候使用Prioritized experience replay技术提高有价值经验的比重, 提高随机探索的比重。 更好的方案是Reward reshape。这需要自定义一些奖惩规则,比如对Agent原地不动进行惩罚,机器人距离终点近一些给一些奖励。

但如果你的环境不设置终点,只是障碍物多一些,那么直接用DDPG就能处理。