icoxfog417 / baby-steps-of-rl-ja

Pythonで学ぶ強化学習 -入門から実践まで- サンプルコード
Apache License 2.0
431 stars 262 forks source link

Policy Iteartionの方が常に速いわけではない #13

Closed icoxfog417 closed 5 years ago

icoxfog417 commented 5 years ago

指摘事項

Policy Iteartionの方が常に収束が速いわけではないので。「Policy Iterationの方が、Value Iterationよりも若干計算速度が速いと思います。これはPolicy Iterationが全状態の価値を計算しなくても済むためですが・・・」という表現は、表現方法を見直す(効率的な面はあるが、=常に早いではない)。

指摘箇所

ページ番号: p

実行環境

エラー内容

(例外のメッセージ、ログ、画面ショットなどを添付)