深入浅出看懂AlphaGo如何下棋

CharlesLiuyx commented 7 years ago

shuoyangd commented 7 years ago

粗略看了一下，写的很好！有空我准备再仔细看一遍。不知道是不是欢迎转载？

至于扩展方面，我想做一点补充。其实很久之前就有人用reinforcement learning玩Civilization:

像Go和Civilization这种因为有turn和grid的存在，设定的结构比较明显，因此更容易处理。下面两篇论文都是reinforcement learning来解决相对不那么结构化设定，比如基于自然语言指令的游戏以及连续时间的游戏。

如果扩展到自然语言处理，结构化就更不明显了，所以用reinforcement learning也就更困难。但是最近还是有人开始尝试做一些这方面的工作，比如在机器翻译上去年的NIPS就有相关的尝试：

另外去年还有一大坨ChatBot方面的工作也都在用Deep Reinforcement Learning。我看过一些，但这方面总体不是很熟，还请其他高人指点。

CharlesLiuyx commented 7 years ago

@shuoyangd 您好！欢迎标注出处的转载！

这篇论文很nice！有启发，这篇论文应该2009年的作品，的确很老，之后强化学习的自动机环境交互的模式才被慢慢的开发出来。

星际论文值得研究，这也是我下一步的计划！第一篇NPL方面因为涉及到RNN的思想，我准备把RNN的系列家族算法原理看懂后再进行拜读，已经列入计划，非常感谢

NPL最近的进展是DNN的突破，之前应该是RNN+LSTM，GAN也在作诗，生成语言上有一定建树，循环卷积网络，这部分，可以看Google翻译的论文，很有启发性！

至于DQN之类的我也在学习中，我相信这都是非常前沿的技术，学无止境，共同进步！

lxy444 commented 7 years ago

请问一下，算法中是如何避免重复落子的呢，就是如何保证下一步的棋跟已经存在的不重复？

CharlesLiuyx commented 7 years ago

@lxy444 这里使用MCTS树型搜索保证状态不重复，要用非常多的内存和空间来维护搜索树的

lxy444 commented 7 years ago

@CharlesLiuyx 非常感谢，看了你的文章明白很多，解释的非常清楚

CharlesLiuyx commented 7 years ago

@lxy444 完全看懂AlphaGo必须学习一下MCTS的UTC算法，还有强化学习的策略迭代法，基本Idea都不难，但是精通还是有很多内容

CharlesLiuyx / BlogComment