qqiang00 / Reinforce

Reinforcement Learning Algorithm Package & PuckWorld, GridWorld Gym environments
841 stars 485 forks source link

策略迭代代码问题 #10

Open FUNKYQ opened 1 year ago

FUNKYQ commented 1 year ago

每次update_V的时候后面调用的compute_V时的策略是基于当前V的,而不是上一次策略提升后得到的策略,这不就相当于是值迭代了,并没有体现出策略评估和策略提升的两步分别进行。 有没有大佬帮我看一下。

Easyboy0405 commented 1 year ago

这是来自QQ邮箱的假期自动回复邮件。   您好,我最近正在休假中,无法亲自回复您的邮件。我将在假期结束后,尽快给您回复。