datawhalechina / easy-rl

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
Other
9.01k stars 1.81k forks source link

/chapter1/chapter1_questions&keywords #35

Open qiwang067 opened 3 years ago

qiwang067 commented 3 years ago

https://datawhalechina.github.io/easy-rl/#/chapter1/chapter1_questions&keywords

Description

Sunnyzhr commented 3 years ago

沙发: 写得太好了!!!

yyysjz1997 commented 3 years ago

谢谢你的肯定,也希望可以提供更加宝贵的建议,让我们的教程进一步更新,为更多的小伙伴提供帮助。

randaldong commented 3 years ago

结合了很多课程的内容,真的太用心了,大大的赞!Interview 那里太好玩了哈哈哈

yyysjz1997 commented 3 years ago

结合了很多课程的内容,真的太用心了,大大的赞!Interview 那里太好玩了哈哈哈

谢谢你的肯定!希望继续支持我们的项目啦!多提宝贵的意见。

Strawberry47 commented 2 years ago

写的太好啦

yyysjz1997 commented 2 years ago

写的太好啦

谢谢~,最新版的可以看我们的pdf版本,后面会慢慢对于repo中的md文件进行更新。

Coder-Liuu commented 2 years ago

呜呜呜(泪目),竟然有这么好的教程!

qiwang067 commented 2 years ago

呜呜呜(泪目),竟然有这么好的教程!

感谢您的认可,能对您有所帮助就好!

3832YLMa commented 2 years ago

豁然开朗!

qiwang067 commented 2 years ago

豁然开朗!

能对您有所帮助就好!XD

wo767990185 commented 2 years ago

很好,谢谢

Chx121386 commented 2 years ago

感谢作者,很棒!

violaBook commented 2 years ago

高冷的面试官的导数第三问的答案好像有点逻辑小错误?“ 需要通过学习逐渐逼近真实模型的问题并且当前的动作会影响环境的状态,即服从马尔可夫性的问题。”,这个即应该是等价的意思,但是前面的描述和马尔科夫性的定义关联度不大?不知道我理解的对不对,可以讨论一哈。

yyysjz1997 commented 2 years ago

这里确实不太严谨。“当前的动作会影响环境的状态”和“服从马尔可夫性的问题”,本身都是正确的,但是两者确实无关(关系似有似无😂),或者说不能这样表述。前者表达的意思是智能体的动作执行会影响环境状态,后者表达的意思是未来的概率分布只与当前的状态,不知道你是否同意。谢谢你的建议~

Hartrrem commented 1 year ago

这读物!这作者!相见恨晚!优秀!!感谢!!

yyysjz1997 commented 1 year ago

这读物!这作者!相见恨晚!优秀!!感谢!!

谢谢支持😃

zwtnewbee commented 1 year ago

太棒啦~

qiwang067 commented 1 year ago

太棒啦~

感谢支持 ^V^

neil0306 commented 2 months ago

1-5 友善的面试官: 你了解有模型和免模型吗?两者具体有什么区别呢?

我认为两者的区别主要在于是否需要对真实的环境进行建模,免模型方法不需要对环境进行建模,直接与真实环境进行交互即可,所以其通常需要较多的数据或者采样工作来优化策略,这也使其对于真实环境具有更好的泛化性能;而有模型方法需要对环境进行建模,同时在真实环境与虚拟环境中进行学习,如果建模的环境与真实环境的差异较大,那么会限制其泛化性能。现在通常使用有模型方法进行模型的构建工作。


上面是原文,最后一句话与书本正文的内容似乎有出入,现在通常使用的应该是 “免模型” 的方法对吗?

yyysjz1997 commented 2 months ago

1-5 友善的面试官: 你了解有模型和免模型吗?两者具体有什么区别呢?

我认为两者的区别主要在于是否需要对真实的环境进行建模,免模型方法不需要对环境进行建模,直接与真实环境进行交互即可,所以其通常需要较多的数据或者采样工作来优化策略,这也使其对于真实环境具有更好的泛化性能;而有模型方法需要对环境进行建模,同时在真实环境与虚拟环境中进行学习,如果建模的环境与真实环境的差异较大,那么会限制其泛化性能。现在通常使用有模型方法进行模型的构建工作。

上面是原文,最后一句话与书本正文的内容似乎有出入,现在通常使用的应该是 “免模型” 的方法对吗?

hello,没错现在通常使用的是 “免模型” 的方法,这个“面试题”是在三年前编写的,所以可能和当前的有些出入,我更新一下。谢谢issue~