关于大迷宫（例如100x100）求解问题，适合什么强化学习算法？

TimDingg commented 4 years ago

教学中的迷宫规模都比较小，不复杂。如果想要求解大规模，如100*100的迷宫，且环境比较复杂的，应该选用什么强化学习算法？我试了几种算法，发现Q-learning貌似求出的不是最优解，而DQN的训练速度太慢，难以求得解。想请问下是什么原因导致的这些问题，随机策略选择还是其他参数设置的问题？或者有什么比较适合的强化学习算法嘛？求大神指导！谢谢！

shiruisnotes commented 3 years ago

@TimDingg 你好请问你的问题解决了吗？我也遇到了同样的问题

MengWoods commented 6 months ago

如果环境设置终点的话: 环境大的话，Agent很难到达终点，导致训练过程中很难产生有价值的经验。据我所知，使用DDPG可以处理复杂一些的迷宫，处理奖励信息的时候使用Prioritized experience replay技术提高有价值经验的比重，提高随机探索的比重。更好的方案是Reward reshape。这需要自定义一些奖惩规则，比如对Agent原地不动进行惩罚，机器人距离终点近一些给一些奖励。

但如果你的环境不设置终点，只是障碍物多一些，那么直接用DDPG就能处理。

MorvanZhou / Reinforcement-learning-with-tensorflow

关于大迷宫（例如100x100）求解问题，适合什么强化学习算法？ #178