Open PaPaPaPatrick opened 1 year ago
一文看懂蒙特卡洛采样方法
蒙特卡洛方法与 MCMC 采样:主要是为了解决采样的样本更符合所期望的概率分布,即采样的采样的分布与GT完全符合 https://www.huaxiaozhuan.com/%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/chapters/4_monte_carlo.html
(DILab的专栏)MCTS+RL: https://www.zhihu.com/column/c_1764308735227662336
参考 https://zhiqianghe.blog.csdn.net/article/details/103985855
蒙特卡洛树搜索大概的思想就是给定一个游戏状态,去选择一个最佳的策略/动作。 我们希望找到的就是最佳策略(the most promising next move)。如果你知道对手的策略那你可以争对这个策略求解,但是大多数情况下是不知道对手的策略的,所以我们需要用minimax的方法,假设你的对手是非常机智的,每次他都会采取最佳策略。
由于是零和博弈,且对方是理性的状态,是否可以理解为使自己可能出现的损失最小(即使对方的reward最大最小)。
当博弈的深度很深时(比如围棋),无法穷举,因此用少量的随机搜索来代替某个Node的真值去做决策,并在此过程中,根据局势的推演(对手的选择)动态的展开子节点,最后肯定有多个叶子节点被完全展开,在整个决策的过程中减少计算量和搜索量。