for ep in range(EP_MAX):
s = env.reset()
buffer_s, buffer_a, buffer_r = [], [], []
ep_r = 0
for t in range(EP_LEN): # in one episode
env.render()
a = ppo.chooseaction(s)
s, r, done, _ = env.step(a)`
代码中是通过环境导入进行学习,如果不使用游戏环境,如何根据自己的需要修改回报 r 的计算?也就是最后一行代码,怎么替代 env.step(a) ?
`env = gym.make('Pendulum-v0').unwrapped ppo = PPO() all_ep_r = []
for ep in range(EP_MAX): s = env.reset() buffer_s, buffer_a, buffer_r = [], [], [] ep_r = 0 for t in range(EP_LEN): # in one episode env.render() a = ppo.chooseaction(s) s, r, done, _ = env.step(a)` 代码中是通过环境导入进行学习,如果不使用游戏环境,如何根据自己的需要修改回报 r 的计算?也就是最后一行代码,怎么替代 env.step(a) ?