策略迭代代码问题

qqiang00 / Reinforce

Reinforcement Learning Algorithm Package & PuckWorld, GridWorld Gym environments

841 stars 485 forks source link

Open FUNKYQ opened 1 year ago

FUNKYQ commented 1 year ago

每次update_V的时候后面调用的compute_V时的策略是基于当前V的，而不是上一次策略提升后得到的策略，这不就相当于是值迭代了，并没有体现出策略评估和策略提升的两步分别进行。有没有大佬帮我看一下。

Easyboy0405 commented 1 year ago

这是来自QQ邮箱的假期自动回复邮件。您好，我最近正在休假中，无法亲自回复您的邮件。我将在假期结束后，尽快给您回复。