Open chensisi0730 opened 1 year ago
value_iteration 测试的成功率是: 0.638 ,价值算法需要不断 的迭代,做策略评估, 代码里面只做了一次迭代
All of these algorithms converge to an optimal policy for discounted finite MDPs. FYI,引自强化学习导论,你可以尝试添加discount
value_iteration 测试的成功率是: 0.638 ,价值算法需要不断 的迭代,做策略评估, 代码里面只做了一次迭代