dragen1860 / Deep-Learning-with-TensorFlow-book

深度学习入门开源书,基于TensorFlow 2.0案例实战。Open source Deep Learning book, based on TensorFlow 2.0 framework.
http://www.ai101edu.com
13.2k stars 4.09k forks source link

第14章PPO算法问题 #208

Open muxixixixi opened 4 years ago

muxixixixi commented 4 years ago
  1. 代码逻辑问题:当某个episode交互次数少于batch_size时,buffer没有清空,也就是说buffer里面可能存储好几次的episode交互序列,当最后终于超出batchsize可以训练的时候,倒置计算reward是当成的一个episode来计算的。

  2. 注释写的MC循环计算R不是很理解,这里的MC应该不是蒙特卡洛那是指的啥?