Closed Sobbbbbber closed 3 years ago
您好,代码中您使用RNN作为函数近似网络 off-policy的算法,训练时进行sample 这时sample的是以episode为单位进行sample的 训练时,考虑到hidden state 输入的问题,所以就从头遍历<o,a,r,o'> 所以采样得到的episode中,每一步的transition都作为训练数据
请问上述的理解对吗?
对的,因为RNN的原因,所以需要每个episode都从头开始,每条transition都用来计算loss
您好,代码中您使用RNN作为函数近似网络 off-policy的算法,训练时进行sample 这时sample的是以episode为单位进行sample的 训练时,考虑到hidden state 输入的问题,所以就从头遍历<o,a,r,o'> 所以采样得到的episode中,每一步的transition都作为训练数据
请问上述的理解对吗?