starry-sky6688 / MARL-Algorithms

Implementations of IQL, QMIX, VDN, COMA, QTRAN, MAVEN, CommNet, DyMA-CL, and G2ANet on SMAC, the decentralised micromanagement scenario of StarCraft II
1.46k stars 283 forks source link

关于涉及环境参数的一些疑问 #98

Closed zanezhenli closed 1 year ago

zanezhenli commented 1 year ago

作者你好。 我在使用qmix算法进行自定义环境的训练时,环境代码时编写遇到一个参数 _"episodelimit" ,请问这个参数的实际意义是是什么?同时arguments中的_"nsetps" 和 _"n_episodes"_又是什么意义? 在我的自定义环境中,一轮游戏是需要多智能体决策3600次的动作,每次执行完动作会有一个reward返回,3600次之后一轮游戏结束。请问这种情况下,上述这些参数应该如何取值?

starry-sky6688 commented 1 year ago

episode_limit:一个episode的最大长度,超过这个长度就停止和环境交互 n_setps:整个训练过程,agent和环境交互多少次 n_episodes:每生成n_episodes后训练一次网络

你的环境,设置episode_limit=3600就可以了;另外两个看你自己想训练到什么程度吧