Playing hard exploration games by watching YouTube

这篇文章确实在三个游戏上做出了效果，这毋庸置疑，但得分超过人类水平的主要原因还是在于模仿了人类高手的玩法。其创新不在于强化学习的算法，主要在于如何直接从视频源进行模仿学习，避开了匹配状态动作对(S,a)的预处理步骤。关键点在于构造辅助任务，训练特征提取网络，更多的可以看做是一篇CV的文章。不过将模仿学习和强化学习相结合的训练方式，值得认真思考和研究。

PaperCommunity / Deep-Reinforcement-Learning

Playing hard exploration games by watching YouTube #1