Closed ieyasu2017 closed 5 years ago
一回も行動しないでhappe_end
になる(=スタート=ゴール)という状態は想定しないプログラムとなっています。state_up_up_up_up_up
からup
, down
いずれかの行動をしてhappe_end
に至るため、(R(state_up_up_up_up_up
) = 0) + 0.99 * (max_V_on_next_state(state_up_up_up_up_up
) = 1) = 0.99となります。
初期位置=ゴールを許容する場合、ご指摘の通り1になります。
ご回答ありがとうございます。 state_up_up_up_up_upの状態=happy_endの状態と考えていましたが、この2つの状態は別物で、報酬はhappy_endの状態に与えられるということがわかり、コードの内容が理解できました。 ありがとうございました。
指摘事項
疑問点があるので、質問させていただきます。
p. 35のbellman_equation.pyで状態state_up_up_up_up_upに対してVを計算すると、V("state_up_up_up_up_up")=gamma=0.99となります。"state_up_up_up_up_up"はhappy_end状態であり、next_stateは存在しないので、V("state_up_up_up_up_up")=1となるように思うのですが、この考えたかは間違っているのでしょうか?
よろしくお願いします。
指摘箇所
ページ番号: p35-37
実行環境
pip freeze
の実行結果 (下に添付)エラー内容
(例外のメッセージ、ログ、画面ショットなどを添付)