le-liang / MARLspectrumSharingV2X

Spectrum sharing in vehicular networks based on multi-agent reinforcement learning, IEEE Journal on Selected Areas in Communications
226 stars 93 forks source link

关于车辆时延部分在奖励函数的考虑 #2

Closed godmanbely closed 4 years ago

godmanbely commented 4 years ago



这里对奖励函数时延部分与论文里说的不太符合。而且一般优化时延是通过mac层或者物理层进行排队分析。所以时延部分一般在车联网中要怎么进行表达?而且在强化学习中怎么优化时延? 期待得到您的回复。 谢谢

le-liang commented 4 years ago

你好,reward和论文描述是一致的,只是同比缩小使得论文中的beta = 1。

关于时延,排队论可以用来分析,我们之前有相关的一些工作(附文末)。但这里主要想解决periodic payload of V2V links,即“在固定时间T内成功传输B字节数据”这样一个传统方案不太好描述的服务要求(也可以理解为不是非常典型的时延问题),因而尝试使用RL来解决。

Resource allocation for vehicular communications with low latency and high reliability, C. Guo, L. Liang, and G. Y. Li, IEEE Transactions on Wireless Communications, vol. 18, no. 8, pp. 3887–3902, Aug. 2019.

godmanbely commented 4 years ago
