博弈论 - Githubissues

博弈的稳定局势即为纳什均衡(Nash equilibrium)：指的是参与者所作出的这样一种策略组合，在该策略组合上，任何参与者单独改变策略都不会得到好处。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。可以认为在不确定对手采取的具体策略的情况下，使得自己的收益最大的策略集合。纳什均衡的解（稳定解）不一定是最优解，纳什均衡的本质是考虑了不同的概率和可能之后不后悔的选择（虽然未来局势不一定按最大概率发展）

Nash定理：若参与者有限，每位参与者的策略集有限，收益函数为实值函数，则博弈必存在混合策略意义下的纳什均衡。

遗憾最小化算法(Regret Minimization)：如果某个博弈能持续进行，则用遗憾值来进行策略选择。计算得到玩家在第T轮次采取策略σ i 的遗憾值后，在第T + 1 轮次玩家i 选择策略a的概率如下(悔值越大、越选择，即亡羊补牢)。但是当博弈状态空间呈指数增长时，对一个规模巨大的博弈树无法采用最小遗憾算法。

PaPaPaPatrick / DecisionTech

博弈论 #4