AlphaGo与强化学习 - Githubissues

githik999 commented 2 years ago

计算机科学家最早的想法是把自己的明知识，包括能够表达出来的常识和经验放到一个巨大的数据库里，再把常用的判断规则写成计算机程序。这就是在20世纪70年代兴起并在20世纪80年代达到高潮的“知识工程”和“专家系统”。

专家系统.

今天的机器可以自己学习两大类明知识：用逻辑表达的判断规则和用概率表达的事物间的相关性。

机器学习迄今为止最让人类惊奇的表现就是下围棋。下围棋的问题是当我每走一步时，如何使得最终赢棋的概率最大？如果我不走150步，只走两步，每步双方只随机选5种走法，我走第一步有五种选择，对方对我这五种选择的每一种又有五种选择，我走第二步一共有5×5×5=125种选择。但通常走完两步离终局还很远，那我从走完第二步的这125个位置上各派出一批“侦察兵”，每个“侦察兵”蒙着头一条道走到黑，看到岔路任选一条，尽快走到终局，如果猜对了，给这个出发点加一分，猜错了，减一分。

从每个位置上派出的“侦察兵”越多，从这125个出发点到终局的赢率就越准确。

这个“有限出发点，随机侦察”的方法有个唬人的专业名字叫“蒙特卡洛树搜索”。

蒙特卡洛是摩纳哥的赌场区，所以蒙特卡洛就是“随机”的意思。

前面介绍的无论是卷积神经网络还是循环神经网络都需要大量的训练数据，这也叫“监督学习”。在“监督学习”中通常有唯一或明确的答案，猫就是猫，狗就是狗。

数据量大.还要监督训练.

这都是一个团体的work

githik999 commented 2 years ago

譬如我们在楼里打电话时，如果信号不好，我们就拿着手机，边走边问对方“ 能听到吗？”。我们得到的信息并不能直接告诉我们哪里信号最好，也无法告诉我们下一步应该往哪个方向走，每一步的信息只能让我们评估当前的状况是更好还是更差。我们需要走动、测试，以决定下一步应该往哪儿走。

githik999 commented 2 years ago

nothing is easy because if you want you have to make a lot of...preparation...

githik999 commented 2 years ago

这里面最大的问题是.涉及到libc.没法安全操作.

githik999 / TacitKnowldgeReadingNote

AlphaGo与强化学习 #4