Open muxixixixi opened 4 years ago
代码逻辑问题:当某个episode交互次数少于batch_size时,buffer没有清空,也就是说buffer里面可能存储好几次的episode交互序列,当最后终于超出batchsize可以训练的时候,倒置计算reward是当成的一个episode来计算的。
注释写的MC循环计算R不是很理解,这里的MC应该不是蒙特卡洛那是指的啥?
代码逻辑问题:当某个episode交互次数少于batch_size时,buffer没有清空,也就是说buffer里面可能存储好几次的episode交互序列,当最后终于超出batchsize可以训练的时候,倒置计算reward是当成的一个episode来计算的。
注释写的MC循环计算R不是很理解,这里的MC应该不是蒙特卡洛那是指的啥?