PaperCommunity / Deep-Reinforcement-Learning

1 stars 4 forks source link

Playing hard exploration games by watching YouTube #1

Open initial-h opened 5 years ago

initial-h commented 5 years ago

这篇文章确实在三个游戏上做出了效果,这毋庸置疑,但得分超过人类水平的主要原因还是在于模仿了人类高手的玩法。其创新不在于强化学习的算法,主要在于如何直接从视频源进行模仿学习,避开了匹配状态动作对(S,a)的预处理步骤。关键点在于构造辅助任务,训练特征提取网络,更多的可以看做是一篇CV的文章。不过将模仿学习和强化学习相结合的训练方式,值得认真思考和研究。