CharlesLiuyx / BlogComment

4 stars 0 forks source link

深入浅出看懂AlphaGo如何下棋 #3

Open CharlesLiuyx opened 7 years ago

CharlesLiuyx commented 7 years ago

https://charlesliuyx.github.io/2017/05/27/AlphaGo%E8%BF%90%E8%A1%8C%E5%8E%9F%E7%90%86%E8%A7%A3%E6%9E%90/

shuoyangd commented 7 years ago

粗略看了一下,写的很好!有空我准备再仔细看一遍。不知道是不是欢迎转载?

至于扩展方面,我想做一点补充。其实很久之前就有人用reinforcement learning玩Civilization:

像Go和Civilization这种因为有turn和grid的存在,设定的结构比较明显,因此更容易处理。下面两篇论文都是reinforcement learning来解决相对不那么结构化设定,比如基于自然语言指令的游戏以及连续时间的游戏。

如果扩展到自然语言处理,结构化就更不明显了,所以用reinforcement learning也就更困难。但是最近还是有人开始尝试做一些这方面的工作,比如在机器翻译上去年的NIPS就有相关的尝试:

另外去年还有一大坨ChatBot方面的工作也都在用Deep Reinforcement Learning。我看过一些,但这方面总体不是很熟,还请其他高人指点。

CharlesLiuyx commented 7 years ago

@shuoyangd 您好!欢迎标注出处的转载!

这篇论文很nice!有启发,这篇论文应该2009年的作品,的确很老,之后强化学习的自动机环境交互的模式才被慢慢的开发出来。

星际论文值得研究,这也是我下一步的计划!第一篇NPL方面因为涉及到RNN的思想,我准备把RNN的系列家族算法原理看懂后再进行拜读,已经列入计划,非常感谢

NPL最近的进展是DNN的突破,之前应该是RNN+LSTM,GAN也在作诗,生成语言上有一定建树,循环卷积网络,这部分,可以看Google翻译的论文,很有启发性!

这里安利一个知乎答案,非常有启发性,题目是,CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别?

至于DQN之类的我也在学习中,我相信这都是非常前沿的技术,学无止境,共同进步!

lxy444 commented 7 years ago

请问一下,算法中是如何避免重复落子的呢,就是如何保证下一步的棋跟已经存在的不重复?

CharlesLiuyx commented 7 years ago

@lxy444 这里使用MCTS树型搜索保证状态不重复,要用非常多的内存和空间来维护搜索树的

lxy444 commented 7 years ago

@CharlesLiuyx 非常感谢,看了你的文章明白很多,解释的非常清楚

CharlesLiuyx commented 7 years ago

@lxy444 完全看懂AlphaGo必须学习一下MCTS的UTC算法,还有强化学习的策略迭代法,基本Idea都不难,但是精通还是有很多内容