Closed Sud0x67 closed 3 years ago
hi@starry-sky6688, 你的代码中提供了一些可以参考的结果,但是有些结果的参数并不是很详细,我想问一下,你的实验结果中,有200个episode和300个episode的结果,这些结果的每个episode分别是多少个时间步呢?是每个episode有固定的时间步还是,每个episode的时间步 = 2000000(n_steps)/ n_episode?
每个episode长度是不固定的,因为我之前的版本是以episode为单位,走完一个episode就训练一次。
后来改成了以step为单位,但是对应的结果觉得没必要重新跑,还是episode对应的结果。
hi@starry-sky6688, 你的代码中提供了一些可以参考的结果,但是有些结果的参数并不是很详细,我想问一下,你的实验结果中,有200个episode和300个episode的结果,这些结果的每个episode分别是多少个时间步呢?是每个episode有固定的时间步还是,每个episode的时间步 = 2000000(n_steps)/ n_episode?