策略函数中的eval_hidden和target_hidden如何理解

starry-sky6688 / MARL-Algorithms

Implementations of IQL, QMIX, VDN, COMA, QTRAN, MAVEN, CommNet, DyMA-CL, and G2ANet on SMAC, the decentralised micromanagement scenario of StarCraft II

1.46k stars 283 forks source link

策略函数中的eval_hidden和target_hidden如何理解 #106

Closed Johnson221b closed 8 months ago

Johnson221b commented 8 months ago

感谢前辈的工作请问qtran_base.py中eval_hidden和target_hidden如何理解呢？我在Qtran作者的论文中没有发现类似的表述还有last_action在整个算法中具体是什么作用？打扰前辈了，非常感谢您的解答！

starry-sky6688 commented 8 months ago

这个和算法无关，因为用了GRU，在rollout的时候，需要通过eval_hidden和target_hidden来保存两个模型在之前step上的hidden_state，才能让agent记忆之前step的观察信息；
last_action是指上一个step下agent执行的动作，从而将其作为obs的一部分作为输入。

Johnson221b commented 8 months ago

明白了，感谢！❀❀❀