第14章PPO算法问题

dragen1860 / Deep-Learning-with-TensorFlow-book

深度学习入门开源书，基于TensorFlow 2.0案例实战。Open source Deep Learning book, based on TensorFlow 2.0 framework.

http://www.ai101edu.com

13.2k stars 4.09k forks source link

Open muxixixixi opened 4 years ago

muxixixixi commented 4 years ago

代码逻辑问题：当某个episode交互次数少于batch_size时，buffer没有清空，也就是说buffer里面可能存储好几次的episode交互序列，当最后终于超出batchsize可以训练的时候，倒置计算reward是当成的一个episode来计算的。
注释写的MC循环计算R不是很理解，这里的MC应该不是蒙特卡洛那是指的啥？