Closed raccoon246 closed 4 years ago
P.65の1行目にて 「show_q_valueはエージェントの状態価値を可視化するための関数です」とありますが、正しくは 「show_q_valueはエージェントの状態評価を可視化するための関数です」 ではないでしょうか?
(背景) 「状態価値」という単語は本書ではp65で初めて登場した単語で、 次の行を読むと「エージェントは各状態における各行動の評価をQという変数に記録します」とあるので、「状態価値」ではなく「状態評価」が正しいのかと推測しました。 (「状態価値」の意味が分かっていないのですが、定義は本書のどこかでされているのでしょうか?)
ページ番号: p65(第1刷)
pip freeze
(例外のメッセージ、ログ、画面ショットなどを添付)
変数Qに格納に格納されているのは、正確には「ある状態sにおいて行動aをとる価値」であるため「行動価値」が正です(最新版では修正されています)。
状態価値は、状態sが(報酬の獲得に)どれだけ近い状態であるかを表します。評価/価値は同等の意味で、用語の違いになります(英語では"value"とされることが多いため、後の版では値は「価値」、値を算出する行為を「評価」にしています)。
指摘事項
P.65の1行目にて
「show_q_valueはエージェントの状態価値を可視化するための関数です」とありますが、正しくは 「show_q_valueはエージェントの状態評価を可視化するための関数です」 ではないでしょうか?
(背景) 「状態価値」という単語は本書ではp65で初めて登場した単語で、 次の行を読むと「エージェントは各状態における各行動の評価をQという変数に記録します」とあるので、「状態価値」ではなく「状態評価」が正しいのかと推測しました。 (「状態価値」の意味が分かっていないのですが、定義は本書のどこかでされているのでしょうか?)
指摘箇所
ページ番号: p65(第1刷)
実行環境
pip freeze
の実行結果 (下に添付)エラー内容
(例外のメッセージ、ログ、画面ショットなどを添付)