MCTS - Githubissues

PaPaPaPatrick commented 1 year ago

参考 https://zhiqianghe.blog.csdn.net/article/details/103985855

蒙特卡洛树搜索大概的思想就是给定一个游戏状态，去选择一个最佳的策略/动作。我们希望找到的就是最佳策略(the most promising next move)。如果你知道对手的策略那你可以争对这个策略求解，但是大多数情况下是不知道对手的策略的，所以我们需要用minimax的方法，假设你的对手是非常机智的，每次他都会采取最佳策略。

由于是零和博弈，且对方是理性的状态，是否可以理解为使自己可能出现的损失最小（即使对方的reward最大最小）。
当博弈的深度很深时（比如围棋），无法穷举，因此用少量的随机搜索来代替某个Node的真值去做决策，并在此过程中，根据局势的推演（对手的选择）动态的展开子节点，最后肯定有多个叶子节点被完全展开，在整个决策的过程中减少计算量和搜索量。

PaPaPaPatrick commented 1 year ago

一文看懂蒙特卡洛采样方法

https://zhuanlan.zhihu.com/p/338103692

PaPaPaPatrick commented 1 year ago

蒙特卡洛方法与 MCMC 采样：主要是为了解决采样的样本更符合所期望的概率分布，即采样的采样的分布与GT完全符合 https://www.huaxiaozhuan.com/%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/chapters/4_monte_carlo.html

PaPaPaPatrick commented 2 months ago

（DILab的专栏）MCTS+RL: https://www.zhihu.com/column/c_1764308735227662336

PaPaPaPatrick commented 2 weeks ago

在root node下一个动作的子空间中，如果解（value）的差异非常大，即可能出现在同一解空间下rollout的value容易出现震荡的情况，则很可能像遍历一样才能找到最优解（次优解）；
如果子空间的value的差异不大，比如在某种状态下，后续已经无法补救（已经造成碰撞风险引起了恐慌），则通过几个rollout次节点的value值基本稳定，会和其他同层级的value出现明显差异，则可以大量的剪枝，似的搜索快速收敛至最优解上；
当引入了puct之后，采样策略就完全和先验分布有关系，则可以通过优化先验策略持续迭代达到加速求解的目标。

PaPaPaPatrick / DecisionTech

MCTS #1