starry-sky6688 / MADDPG

Pytorch implementation of the MARL algorithm, MADDPG, which correspondings to the paper "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments".
516 stars 80 forks source link

关于反方的奖励问题 #39

Closed iceuan closed 9 months ago

iceuan commented 9 months ago

您好,我看到您代码中反方的运动是随机的,在实际运行代码的时候反方的运动一般是在原地抖动,被正方agent撞击之后才会发生较大的轨迹变化,算是裹挟着走。 那么,能否给反方加上一个DDPG网络让反方也能够选择对自己奖励高的运动呢,还有就是如果加上之后,应该如何进行双方网络的优化训练呢?是设置我方和反方两个reward值分别进行训练吗? 如果加上之后,展示结果的reward随episode变化的函数需要分正方和反方进行展示吗? 谢谢!

iceuan commented 9 months ago

还有就是我还碰到了一个问题,就是我给反方agent指定动作为如下时,反方agent一直在抖动,不知道这个是什么原因 image

starry-sky6688 commented 9 months ago

可以给反方加个奖励,双方迭代训练,具体可以看一下self-play的做法;reward肯定是要分正反方的;

第二个问题不太清楚,看一下是不是环境中其他地方有代码把动作覆盖掉了

iceuan commented 9 months ago

收到啦,谢谢您 

985706681 @.***

 

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2023年12月5日(星期二) 晚上8:05 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [starry-sky6688/MADDPG] 关于反方的奖励问题 (Issue #39)

可以给反方加个奖励,双方迭代训练,具体可以看一下self-play的做法;reward肯定是要分正反方的;

第二个问题不太清楚,看一下是不是环境中其他地方有代码把动作覆盖掉了

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>