le-liang / MARLspectrumSharingV2X

Spectrum sharing in vehicular networks based on multi-agent reinforcement learning, IEEE Journal on Selected Areas in Communications
226 stars 93 forks source link

关于随机性的问题 #26

Closed pazyorkcc closed 1 year ago

pazyorkcc commented 1 year ago

梁教授,您好!

首先感谢您将代码开源,可供大家学习和借鉴,我在其中学习到了很多。在复现您论文结果的过程中,我有一些疑惑,希望能和您探讨。 我进行了两组实验。 第一组实验,是在固定MARL实验随机种子的情况下进行的。在这个情况下进行的训练和测试的环境均为固定的,统计结果显示MARL是最优的。 第二组实验,是在没有固定随机种子的情况下进行的,训练和测试的环境在不同episode均是不一样的,结果显示MARL的结果普遍约等于或低于random。 我计划开展第三组实验,就是在训练中固定随机种子,而在测试中不固定随机种子。

想询问下您的实验中,训练阶段和测试阶段的随机种子是如何设置的?如果是第一种情况,我认为模型对其他道路环境的泛化能力较弱,不知道您有无考虑这种情况?

感谢,期待可以得到交流的机会。

pazyorkcc commented 1 year ago

这是用github中模型测试的结果,感觉随机种子不固定的情况下,实验结果问题较大。

V2I 链路的平均传输速度 序号 训练 测试 MARL SARL rand dpra
6 预训练模型 随机种子固定 40.63 Mbps 38.68 Mbps 37.04 Mbps 41.22 Mbps
7 预训练模型 随机种子不固定 42.32 Mbps 48.35 Mbps 43.14 Mbps 50.24 Mbps

V2V 链路的平均传送成功率

序号 训练 测试 MARL SARL rand dpra
6 预训练模型 随机种子固定 1.0 0.985 0.9075 1.0
7 预训练模型 随机种子不固定 0.4775 0.9525 0.7575 1.0
le-liang commented 1 year ago

你好,谢谢你提的这个问题。我们做实验的时候确实是(无意识地)固定了随机种子,这样做会大大降低泛化能力验证的说服力。训练的过程中改变随机种子,等效于从不同位置探索状态空间,对于提升测试阶段的性能应该很有帮助,我们会进一步考虑,也欢迎邮件和我们讨论 lliang@seu.edu.cn