icoxfog417 / baby-steps-of-rl-ja

Pythonで学ぶ強化学習 -入門から実践まで- サンプルコード
Apache License 2.0
431 stars 262 forks source link

p65 「状態価値」誤植 #45

Closed raccoon246 closed 4 years ago

raccoon246 commented 4 years ago

指摘事項

P.65の1行目にて
「show_q_valueはエージェントの状態価値を可視化するための関数です」とありますが、正しくは 「show_q_valueはエージェントの状態評価を可視化するための関数です」 ではないでしょうか?

(背景) 「状態価値」という単語は本書ではp65で初めて登場した単語で、 次の行を読むと「エージェントは各状態における各行動の評価をQという変数に記録します」とあるので、「状態価値」ではなく「状態評価」が正しいのかと推測しました。 (「状態価値」の意味が分かっていないのですが、定義は本書のどこかでされているのでしょうか?)

指摘箇所

ページ番号: p65(第1刷)

実行環境

エラー内容

(例外のメッセージ、ログ、画面ショットなどを添付)

icoxfog417 commented 4 years ago

変数Qに格納に格納されているのは、正確には「ある状態sにおいて行動aをとる価値」であるため「行動価値」が正です(最新版では修正されています)。

状態価値は、状態sが(報酬の獲得に)どれだけ近い状態であるかを表します。評価/価値は同等の意味で、用語の違いになります(英語では"value"とされることが多いため、後の版では値は「価値」、値を算出する行為を「評価」にしています)。