MorvanZhou / Reinforcement-learning-with-tensorflow

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学
https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/
MIT License
8.86k stars 5k forks source link

这里的回报 r 具体指什么?如何根据自己的问题修改代码以获得回报r? #133

Open liudading opened 5 years ago

liudading commented 5 years ago

`env = gym.make('Pendulum-v0').unwrapped ppo = PPO() all_ep_r = []

for ep in range(EP_MAX): s = env.reset() buffer_s, buffer_a, buffer_r = [], [], [] ep_r = 0 for t in range(EP_LEN): # in one episode env.render() a = ppo.chooseaction(s) s, r, done, _ = env.step(a)` 代码中是通过环境导入进行学习,如果不使用游戏环境,如何根据自己的需要修改回报 r 的计算?也就是最后一行代码,怎么替代 env.step(a) ?

gsycan commented 5 years ago

可以参考莫烦的DQN视频中的迷宫寻宝的例子,他那个是将环境单独抽离出来。应该可以找到“Pendulum”的环境代码 将其抽取出来 自己根据需要修改。