PaPaPaPatrick / DecisionTech

0 stars 0 forks source link

博弈论 #4

Open PaPaPaPatrick opened 1 year ago

PaPaPaPatrick commented 1 year ago

https://blog.csdn.net/weixin_39059031/category_9674933.html

PaPaPaPatrick commented 1 year ago

博弈的稳定局势即为纳什均衡(Nash equilibrium):指的是参与者所作出的这样一种策略组合,在该策略组合上,任何参与者单独改变策略都不会得到好处。换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。可以认为在不确定对手采取的具体策略的情况下,使得自己的收益最大的策略集合。 纳什均衡的解(稳定解)不一定是最优解,纳什均衡的本质是考虑了不同的概率和可能之后不后悔的选择(虽然未来局势不一定按最大概率发展)

Nash定理:若参与者有限,每位参与者的策略集有限,收益函数为实值函数,则博弈必存在混合策略意义下的纳什均衡。

遗憾最小化算法(Regret Minimization): 如果某个博弈能持续进行,则用遗憾值来进行策略选择。计算得到玩家在第T轮次采取策略σ i 的遗憾值后,在第T + 1 轮次玩家i 选择策略a的概率如下(悔值越大、越选择,即亡羊补牢)。但是当博弈状态空间呈指数增长时,对一个规模巨大的博弈树无法采用最小遗憾算法。