博主能不能讲一下代码结构啊，能力不够看不太懂

neardws / Game-Theoretic-Deep-Reinforcement-Learning

Code of Paper "Joint Task Offloading and Resource Optimization in NOMA-based Vehicular Edge Computing: A Game-Theoretic DRL Approach", JSA 2022.

https://www.sciencedirect.com/science/article/abs/pii/S138376212200265X

GNU General Public License v3.0

204 stars 46 forks source link

博主能不能讲一下代码结构啊，能力不够看不太懂 #17

Closed 921zzz closed 1 year ago

neardws commented 1 year ago

项目结构在https://github.com/neardws/Game-Theoretic-Deep-Reinforcement-Learning#readme 的File Structure中写了，不清楚这个代码结构是指什么？

921zzz commented 1 year ago

您好，很抱歉，就是我看不太懂文章中所提到的任务卸载，资源分配的具体结构以及两者之间的联合优化这样的一个结构，对代码的一个实现过程不太清楚。

neardws commented 1 year ago

首先，task offloading 和 resource allocation 分别通过MAD4PG 和凸优化来确定。
当然，MAD4PG 的训练是通过 agent 和环境进行交互来实现的，所以当 agent 做出了 action（task offloading）之后，再通过 gradient-based iterative method 和 KKT condition 得到传输功率和计算资源的分配方案。
所以，在代码实现中，基于 gradient-based iterative method 和 KKT condition 的算法是在 MAD4PG 中的环境中实现，即 agent 的 action 传入到环境中后，环境再得到一个整体的 action（任务卸载、传输功率分配，以及计算资源分配），最后就可以得到一个 reward 作为反馈。

921zzz commented 1 year ago

您好，关于数据集的处理和如何使用的这样一个流程，我还不是太明白，您方便回复一下这样一个过程的步骤吗

neardws commented 1 year ago

数据集的处理可以参考另外一个项目https://github.com/neardws/Vehicular-Trajectories-Processing-for-Didi-Open-Data

neardws commented 1 year ago

关于数据集处理的相关信息也可以参考#20

670555467 commented 5 months ago

关于数据集处理的相关信息也可以参考#20

首先，task offloading 和 resource allocation 分别通过MAD4PG 和凸优化来确定。

当然，MAD4PG 的训练是通过 agent 和环境进行交互来实现的，所以当 agent 做出了 action（task offloading）之后，再通过 gradient-based iterative method 和 KKT condition 得到传输功率和计算资源的分配方案。

所以，在代码实现中，基于 gradient-based iterative method 和 KKT condition 的算法是在 MAD4PG 中的环境中实现，即 agent 的 action 传入到环境中后，环境再得到一个整体的 action（任务卸载、传输功率分配，以及计算资源分配），最后就可以得到一个 reward 作为反馈。

你好，在计算资源分配的过程中，没有看到拉格朗日乘子具体是怎么优化的呢