neardws / Game-Theoretic-Deep-Reinforcement-Learning

Code of Paper "Joint Task Offloading and Resource Optimization in NOMA-based Vehicular Edge Computing: A Game-Theoretic DRL Approach", JSA 2022.
https://www.sciencedirect.com/science/article/abs/pii/S138376212200265X
GNU General Public License v3.0
204 stars 46 forks source link

博主能不能讲一下代码结构啊,能力不够看不太懂 #17

Closed 921zzz closed 1 year ago

neardws commented 1 year ago

项目结构在https://github.com/neardws/Game-Theoretic-Deep-Reinforcement-Learning#readme 的File Structure中写了,不清楚这个代码结构是指什么?

921zzz commented 1 year ago

您好,很抱歉,就是我看不太懂文章中所提到的任务卸载,资源分配的具体结构以及两者之间的联合优化这样的一个结构,对代码的一个实现过程不太清楚。

neardws commented 1 year ago
CleanShot 2023-05-11 at 19 42 40@2x
921zzz commented 1 year ago

您好,关于数据集的处理和如何使用的这样一个流程,我还不是太明白,您方便回复一下这样一个过程的步骤吗

neardws commented 1 year ago

数据集的处理可以参考另外一个项目https://github.com/neardws/Vehicular-Trajectories-Processing-for-Didi-Open-Data

neardws commented 1 year ago

关于数据集处理的相关信息也可以参考#20

670555467 commented 5 months ago

关于数据集处理的相关信息也可以参考#20

CleanShot 2023-05-11 at 19 42 40@2x
  • 首先,task offloading 和 resource allocation 分别通过MAD4PG 和凸优化来确定。
  • 当然,MAD4PG 的训练是通过 agent 和环境进行交互来实现的,所以当 agent 做出了 action(task offloading)之后,再通过 gradient-based iterative method 和 KKT condition 得到传输功率和计算资源的分配方案。
  • 所以,在代码实现中,基于 gradient-based iterative method 和 KKT condition 的算法是在 MAD4PG 中的环境中实现,即 agent 的 action 传入到环境中后,环境再得到一个整体的 action(任务卸载、传输功率分配,以及计算资源分配),最后就可以得到一个 reward 作为反馈。

你好,在计算资源分配的过程中,没有看到拉格朗日乘子具体是怎么优化的呢