关于PPO-discrete的时间问题

twodog0508 commented 3 weeks ago

作者您好，您的代码中H-ppo的时间范围为10s~40s，与PPO-discrete对比时，我发现PPO-discrete的持续时间作为10s，结果优于H-PPO；15s时，H-PPO效果好。您的结果是否如此？做混合动作空间对比实验时，是否需要与离散的ppo算法不同的持续时间做对照组？希望作者解答我的困惑。万分感谢！

twodog0508 commented 3 weeks ago

h-ppo算法与离散ppo算法最优的结果相比较，是怎么的？

Metro1998 commented 3 weeks ago

ppo-discrete 理论上其控制效果与决策间隔（你所说的10s或者15s）有一个‘V’字形的关系，当决策间隔过小时，可能会有频繁切换相位的问题，当决策间隔过大的时候可能会部分方向不饱和释放，详见论文Reinforcement Learning for Traffic Signal Control in Hybrid Action Space section V.E.2。这个‘V’字形与FRAP中的发现是相悖的，这可能与我没有在PPO-discrete的奖励中加入切换相位的惩罚项有关（或者其他因素），但是通过实验我还是觉得这个V是比较明确的。至于PPO-discrete和H-PPO算法性能的问题，可能会与环境复杂程度（可以看看论文中的流量图）、模型参数（应该在附录中）或者reward的设计（我并没有在ppo-discrete的奖励中加比较复杂的设计）有关，至少在我的实验中H-PPO相较于PPO-discrete-best（通过grid search寻得）是有一定程度的提升的。至于为什么会有这种提升，可以参照论文中section.VI.A中不太‘’成熟”的论证

twodog0508 commented 3 weeks ago

感谢，我猜测也许是我的车流过少，车辆在交叉口的停车数比较少，而且环境下离散PPO采用10s时的结果只优于H-PPO一点点！您在论文中提到了这三个场景的车辆为150辆/h、200辆/h、250辆/h，是指每条车道或movement吗？

另外，我想请教如何采用IDM模型去生成SUMO的车流文件？

ohhhor2 commented 4 days ago

感谢，我猜测也许是我的车流过少，车辆在交叉口的停车数比较少，而且环境下离散PPO采用10s时的结果只优于H-PPO一点点！您在论文中提到了这三个场景的车辆为150辆/h、200辆/h、250辆/h，是指每条车道或movement吗？

另外，我想请教如何采用IDM模型去生成SUMO的车流文件？

您好，请问您跑起来这个代码了吗？我在复现这个实验上面有一些困难，可不可以和您交流一下？

Metro1998 / hppo-in-traffic-signal-control

关于PPO-discrete的时间问题 #10