Closed scirocc closed 5 months ago
您这里提出,多个agent的回撤区间都差不多,可不可以利用ma-ppo对多个智能体加一个惩罚项呢,就让多个智能体在相同state下输出的action相似时就给他们一个负的reward。我看过很多研报,基本都是在说要尽量训练多个不相似的agent,然后把他们的决策汇总作为最终输出(类似boosting)
是可以的,具体可以参考 FinRL 下的这个 notebook
new link: notebook
您这里提出,多个agent的回撤区间都差不多,可不可以利用ma-ppo对多个智能体加一个惩罚项呢,就让多个智能体在相同state下输出的action相似时就给他们一个负的reward。我看过很多研报,基本都是在说要尽量训练多个不相似的agent,然后把他们的决策汇总作为最终输出(类似boosting)