PaPaPaPatrick / DecisionTech

0 stars 0 forks source link

MCTS #1

Open PaPaPaPatrick opened 1 year ago

PaPaPaPatrick commented 1 year ago

参考 https://zhiqianghe.blog.csdn.net/article/details/103985855

蒙特卡洛树搜索大概的思想就是给定一个游戏状态,去选择一个最佳的策略/动作。 我们希望找到的就是最佳策略(the most promising next move)。如果你知道对手的策略那你可以争对这个策略求解,但是大多数情况下是不知道对手的策略的,所以我们需要用minimax的方法,假设你的对手是非常机智的,每次他都会采取最佳策略。

image

PaPaPaPatrick commented 1 year ago

一文看懂蒙特卡洛采样方法

https://zhuanlan.zhihu.com/p/338103692

PaPaPaPatrick commented 1 year ago

蒙特卡洛方法与 MCMC 采样:主要是为了解决采样的样本更符合所期望的概率分布,即采样的采样的分布与GT完全符合 https://www.huaxiaozhuan.com/%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/chapters/4_monte_carlo.html

PaPaPaPatrick commented 2 months ago

(DILab的专栏)MCTS+RL: https://www.zhihu.com/column/c_1764308735227662336

PaPaPaPatrick commented 2 weeks ago