关于反方的奖励问题

starry-sky6688 / MADDPG

Pytorch implementation of the MARL algorithm, MADDPG, which correspondings to the paper "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments".

516 stars 80 forks source link

关于反方的奖励问题 #39

Closed iceuan closed 9 months ago

iceuan commented 9 months ago

您好，我看到您代码中反方的运动是随机的，在实际运行代码的时候反方的运动一般是在原地抖动，被正方agent撞击之后才会发生较大的轨迹变化，算是裹挟着走。那么，能否给反方加上一个DDPG网络让反方也能够选择对自己奖励高的运动呢，还有就是如果加上之后，应该如何进行双方网络的优化训练呢？是设置我方和反方两个reward值分别进行训练吗？如果加上之后，展示结果的reward随episode变化的函数需要分正方和反方进行展示吗？谢谢！

iceuan commented 9 months ago

还有就是我还碰到了一个问题，就是我给反方agent指定动作为如下时，反方agent一直在抖动，不知道这个是什么原因

starry-sky6688 commented 9 months ago

可以给反方加个奖励，双方迭代训练，具体可以看一下self-play的做法；reward肯定是要分正反方的；

第二个问题不太清楚，看一下是不是环境中其他地方有代码把动作覆盖掉了

iceuan commented 9 months ago

收到啦，谢谢您

985706681 @.***

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2023年12月5日(星期二) 晚上8:05 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [starry-sky6688/MADDPG] 关于反方的奖励问题 (Issue #39)

可以给反方加个奖励，双方迭代训练，具体可以看一下self-play的做法；reward肯定是要分正反方的；

第二个问题不太清楚，看一下是不是环境中其他地方有代码把动作覆盖掉了

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>