icoxfog417 / baby-steps-of-rl-ja

Pythonで学ぶ強化学習 -入門から実践まで- サンプルコード
Apache License 2.0
431 stars 262 forks source link

p28 code1-6: 記述してあるプログラムのミス #3

Closed ariacat3366 closed 5 years ago

ariacat3366 commented 5 years ago

指摘事項

p28のcode1-6、main関数内のwhile部分のインデントが適切では無い。

指摘箇所

ページ番号: p28

実行環境

エラー内容

(例外のメッセージ、ログ、画面ショットなどを添付)

icoxfog417 commented 5 years ago

ご指摘ありがとうございます!これは組版時のミスでした。リポジトリ内のコードは正しくなっています

def main():
    # Make grid environment.
    grid = [
        [0, 0, 0, 1],
        [0, 9, 0, -1],
        [0, 0, 0, 0]
    ]
    env = Environment(grid)
    agent = Agent(env)

    # Try 10 game.
    for i in range(10):
        # Initialize position of agent.
        state = env.reset()
        total_reward = 0
        done = False

        while not done:
            action = agent.policy(state)
            next_state, reward, done = env.step(action)
            total_reward += reward
            state = next_state

        print("Episode {}: Agent gets {} reward.".format(i, total_reward))