Metro1998 / hppo-in-traffic-signal-control

32 stars 2 forks source link

关于PPO-discrete的时间问题 #10

Open twodog0508 opened 3 weeks ago

twodog0508 commented 3 weeks ago

作者您好,您的代码中H-ppo的时间范围为10s~40s,与PPO-discrete对比时,我发现PPO-discrete的持续时间作为10s,结果优于H-PPO;15s时,H-PPO效果好。您的结果是否如此?做混合动作空间对比实验时,是否需要与离散的ppo算法不同的持续时间做对照组?希望作者解答我的困惑。万分感谢!

twodog0508 commented 3 weeks ago

h-ppo算法与离散ppo算法最优的结果相比较,是怎么的?

Metro1998 commented 3 weeks ago

ppo-discrete 理论上其控制效果与决策间隔(你所说的10s或者15s)有一个‘V’字形的关系,当决策间隔过小时,可能会有频繁切换相位的问题,当决策间隔过大的时候可能会部分方向不饱和释放,详见论文Reinforcement Learning for Traffic Signal Control in Hybrid Action Space section V.E.2。这个‘V’字形与FRAP中的发现是相悖的,这可能与我没有在PPO-discrete的奖励中加入切换相位的惩罚项有关(或者其他因素),但是通过实验我还是觉得这个V是比较明确的。 至于PPO-discrete和H-PPO算法性能的问题,可能会与环境复杂程度(可以看看论文中的流量图)、模型参数(应该在附录中)或者reward的设计(我并没有在ppo-discrete的奖励中加比较复杂的设计)有关,至少在我的实验中H-PPO相较于PPO-discrete-best(通过grid search寻得)是有一定程度的提升的。至于为什么会有这种提升,可以参照论文中section.VI.A中不太‘’成熟”的论证

twodog0508 commented 3 weeks ago

感谢,我猜测也许是我的车流过少,车辆在交叉口的停车数比较少,而且环境下离散PPO采用10s时的结果只优于H-PPO一点点! image您在论文中提到了这三个场景的车辆为150辆/h、200辆/h、250辆/h,是指每条车道或movement吗?

另外,我想请教如何采用IDM模型去生成SUMO的车流文件?

ohhhor2 commented 4 days ago

感谢,我猜测也许是我的车流过少,车辆在交叉口的停车数比较少,而且环境下离散PPO采用10s时的结果只优于H-PPO一点点! image您在论文中提到了这三个场景的车辆为150辆/h、200辆/h、250辆/h,是指每条车道或movement吗?

另外,我想请教如何采用IDM模型去生成SUMO的车流文件?

您好,请问您跑起来这个代码了吗?我在复现这个实验上面有一些困难,可不可以和您交流一下?