这里的回报 r 具体指什么？如何根据自己的问题修改代码以获得回报r？

MorvanZhou / Reinforcement-learning-with-tensorflow

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学

https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/

MIT License

8.86k stars 5k forks source link

这里的回报 r 具体指什么？如何根据自己的问题修改代码以获得回报r？ #133

Open liudading opened 5 years ago

liudading commented 5 years ago

`env = gym.make('Pendulum-v0').unwrapped ppo = PPO() all_ep_r = []

for ep in range(EP_MAX): s = env.reset() buffer_s, buffer_a, buffer_r = [], [], [] ep_r = 0 for t in range(EP_LEN): # in one episode env.render() a = ppo.chooseaction(s) s, r, done, _ = env.step(a)` 代码中是通过环境导入进行学习，如果不使用游戏环境，如何根据自己的需要修改回报 r 的计算？也就是最后一行代码，怎么替代 env.step(a) ？

gsycan commented 5 years ago

可以参考莫烦的DQN视频中的迷宫寻宝的例子，他那个是将环境单独抽离出来。应该可以找到“Pendulum”的环境代码将其抽取出来自己根据需要修改。