囚徒困境与帕雷托最优

囚徒困境（英语：Prisoner's Dilemma）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。或者说在一个群体中，个人做出理性选择却往往导致集体的非理性。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

囚徒困境的主旨为，囚徒们彼此合作，坚不吐实，可为全体带来最佳利益（缩短刑期），但在无法沟通的情况下，因为出卖同伙可为自己带来利益（无罪开释），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量，所以这是一个参考性的学术问题。

经典的囚徒困境

1950年，由就职于兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论，后来由顾问艾伯特·塔克以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。
若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。
若二人都互相检举（互相“背叛”），则二人同样判监5年。

微信图片_20190704200830

分析

如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：

若对方沉默、我背叛会让我获释，所以会选择背叛。
若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑5年。

这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑5年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判监均比合作为高，总体利益较合作为低。这就是“困境”所在。例子有效地证明了：非零和博弈中，帕累托最优和纳什均衡是互相冲突的。

帕雷托最优

帕雷托最优（英语：Pareto optimality），或帕雷托最适，也称为帕雷托效率（英语：Pareto efficiency），是经济学中的重要概念，并且在博弈论、工程学和社会科学中有着广泛的应用。与其密切相关的另一个概念是帕雷托改善。

帕雷托最优是指资源分配的一种理想状态。给定固有的一群人和可分配的资源，如果从一种分配状态到另一种状态的变化中，在没有使任何人境况变坏的前提下，使得至少一个人变得更好，这就是帕雷托改善。帕雷托最优的状态就是不可能再有更多的帕雷托改善的状态；换句话说，不可能在不使任何其他人不受损的情况下再改善某些人的境况。

需要指出的是，帕雷托最优只是各种理想态标准中的“最低标准”。也就是说，一种状态如果尚未达到帕雷托最优，那么它一定是不理想的，因为还存在改进的余地，可以在不损害任何人的前提下使某一些人的福利得到提高。但是一种达到了帕雷托最优的状态并不一定真的很“理想”。比如说，假设一个社会里只有一个百万富翁和一个快饿死的乞丐，如果这个百万富翁拿出自己财富的万分之一，就可以使后者免于死亡。但是因为这样无偿的财富转移损害了富翁的福利（假设这个乞丐没有什么可以用于回报富翁的资源或服务），所以进行这种财富转移并不是帕雷托改进，而这个只有一个百万富翁和一个饿死乞丐的社会可以被认为是帕雷托最优的。（这里可以与古典功利主义的标准做一比较。按功利主义的标准，理想的状态是使人们的福利的总和最大化的状态。如果一个富翁损失很少的福利，却能够极大地增加乞丐的福利，使其免于死亡，那么社会的福利总和就增加了，所以从功利主义的角度看，这样的财富转移是一种改善，而最初的极端不平等状态则是不理想的，因为它的福利总和较低。可以看到，帕雷托改进要求在提高某些人福利的时候不能减少任何一个人的福利，而功利主义则允许为了提高福利总和而减少一些人的福利。）

经济学理论认为，如果市场是完备的和充分竞争的，市场交换的结果一定是帕雷托最优的，并且会同时满足以下3个条件：

交换最优：即使再交易，个人也不能从中得到更大的利益。此时对任意两个消费者，任意两种商品的边际替代率是相同的，且两个消费者的效用同时得到最大化。
生产最优：这个经济体必须在自己的生产可能性边界上。此时对任意两个生产不同产品的生产者，需要投入的两种生产要素的边际技术替代率（MRTS）是相同的，且两个生产者的产量同时得到最大化。
产品混合最优：经济体产出产品的组合必须反映消费者的偏好。此时任意两种商品之间的边际替代率必须与任何生产者在这两种商品之间的边际产品转换率（MRT）相同。

如果一个经济体不是帕雷托最优，则存在一些人可以在不使其他人的境况变坏的情况下使自己的境况变好的情形。普遍认为这样低效的产出的情况是需要避免的，因此帕雷托最优是评价一个经济体和政治方针的非常重要的标准。

但是，如同上面指出的，一个帕雷托最优的经济系统只是在“最低”的意义上是“理想”的，并不能保证其中没有贫困或严重的贫富差距。

怎样理解帕累托最优和纳什均衡及其关系？

纳什均衡是对帕累托最优“存在市场势力”这一情形下的补充，大多数情况下纳什均衡的结果都不是帕累托最优（因此博弈论才有用武之地）。如果纳什均衡的结果总是帕累托最优的，那我们只需要让市场去配置资源，每个人追求个人利益最大化，就可以得到有效率的结果。那么还需要什么激励相容、机制设计呢？

从经济学发展史的角度讲，古典经济学一直在论证的一个道理是：自由市场配置的结果是最优的，所以大家只要按照市场的外生情况进行个体最优选择，得到的结果就一定是社会最优的。但是这个结论所适用的条件是模糊不清的，后来经济学的发展就是不断缩小这个结论适用的范围。

博弈论的出现，本质上就是补充“存在市场势力”这一条件的情况。它想说明的是：在存在市场势力的情况下，古典经济学的结论是失效的。个体进行最优选择的结果不一定是社会最优的。比如囚徒困境，我们定义了均衡的概念，说明双方都是个体最优的，但是结果（纳什均衡）并不是社会最优的。后面包括非线性定价、信号理论、合同理论、机制设计等等，都是在说明“在一定条件下，古典的结论是不成立的”，最后我们把原结论适用的范围划得越来越小。

那么求解纳什均衡的意义何在？纳什均衡代表一个博弈进行无穷次后趋于稳定的结果，是事实上更可能发生的现实情况。社会最优的结果是什么？是剩余最大化的结果，是一个假象的social planner所设定的结果，是一个规范分析。

假设有一个上帝可以操纵所有人的行为，他会让大家选择帕累托最优的结果；但如果让市场来配置资源，所有人追求个人利益的最大化，那么结果是一个纳什均衡。举个例子，在生产过剩的时候，所有的奶农都把牛奶倒入河中，则牛奶供给减少，价格上升，这对大家都有好处，这是“帕累托最优”。但是每个奶农总是希望别人家多倒一点牛奶，这样价格上升之后自家的牛奶就可以卖更多的钱。当每一个人都这么想的时候，就没人倒牛奶了，就走向了一个纳什均衡，然而并不是有效率的。

这也是为什么卡特尔的联盟难以维持；为什么大家都知道当所有孩子都去补习了，大家水平都提高，则在应试考试中都获得不到好处，但却无法达成一个所有人都不补课的契约（因为当别人不补课时，你偷偷去补，就可以得到好处）。市场势力的存在使得每个人都必须考虑其他人的行为对自己的影响，最终相互作用，达到了一个对大家都不是最好的结果。在实际的研究中，帕累托最优是一个benchmark，是我们希望能够尽可能靠近的结果。纳什均衡是博弈稳定的状态。机制设计所研究的一类问题就是如何通过设定游戏规则，使得纳什均衡尽可能靠近帕累托最优的结果。

卡特尔联盟：http://www.sun0moon.com/me/10-qita/quanqiukateerlianmeng.htm 只是参考

“帕累托最优”和“纳什均衡”的不同

意大利的维弗雷多·帕累托和美国的约翰·纳什是数量经济学领域两位顶尖专家。约翰·纳什获得1994年诺贝尔经济学奖，帕累托成名的年代还没有诺贝尔经济学奖，但是他是经济学界公认的无冕之王。两位大师生活中还有许多精彩的故事，比如纳什的精神症状一度癫狂，却在不离不弃的爱人帮助下走出阴霾，被人赞誉为美丽心灵；而帕累托在自己数学研究当中得出的人类财富分配规律和阶级划分理论被错误发挥，进而演化出意大利的法西斯主义，被人诟病为法西斯的代言人。

帕累托最优是所有人都满意的一种分配方案，纳什均衡也是所有玩家都接受的一种博弈局面。那么帕累托最优和纳什均衡是不是一回事呢？答案是：不是一回事。

帕累托最优是从静态全局的角度来看待问题，是问题的最优解；而纳什均衡是从动态局部的角度来看待问题，是问题求解过程中的临时解。如果还不够形象直观，我们就回到前面的囚徒困局来说明二者的区别。先陈述分析的结果：两名罪犯一定同时认罪招供。至于原因，我们来看推理过程。甲会这样推理：“假如乙不招供，我只要招供，立即可以获得自由，而不招供却要坐牢1年，显然招供比不招供好；假如乙招供了，我若不招供，要坐牢10年，我招供了只坐5年牢，显然还是招供的好。可见，无论乙招供与否，我的最佳选择都是招供。”同理，乙也会如此推理。因此，最后的结局一定是两人都招供，从而各被判刑5年。这个结果说明他们的决策达成了纳什均衡，因为谁都不愿意冒风险改变自己的决策。然而我们又都明白，他们两个人的最佳选择应该是同时不招供，这样两人仅仅会判1年，这与判刑5年相比，二人都得到利益而无人受损，故此才实现帕累托最优。

那么他们为什么不选择帕累托最优方案呢，原因很简单，就是他们进行的是一种非合作博弈。由于无法串供，他们不能约定共同的立场，也就没有办法合作获取更好地方案。在非合作情况下，纳什均衡阻挡了帕累托最优。其实阻挡帕累托最优的可不仅仅是缺少合作这一个要素，这个话题的延伸将引出经济学中最根本的问题。亚当私密认为在充分竞争的市场里，每个人只要按照个体利益最大化的目标进行交易，并且都遵守自由自愿规则，最后得到的整体结果一定是一种最优配置。这就是关于市场调节是一只无形的手的最早描述，不严格也没有数学论证。

可是他提出这个观点以后，立刻就引来不少批评者，比如马克思、凯恩斯等。他们的主张刚好相反，认为需要一种中央权力来调动一部分资源完成经济的配置和扩张，才能实现最好的配置结果。他们的反驳同样也缺少量化分析。随着数学模型的应用，福利经济学第一定理和第二定理对他们的争论有了准确的描述：当以下三个前提条件成立时，市场竞争产生的均衡一定是帕累托最优的。这三个条件包括：（1）一个完全竞争的市场，（2）不存在外部性，（3）不存在信息不对称。这就说明亚当斯密和凯恩斯的理论都存在问题。

这条定理的确从数学上证明了亚当斯密自由市场理论的正确性，但关键的是这三个前提条件在真实市场环境中全都不能成立。市场中大大小小的垄断随处皆是，公共权益和自然环境构成了随时可以侵占的外部利益，信息的封闭和不对称更是显而易见的缺陷。既然前提条件无法成立，玩家怎么可能通过自由博弈实现隐藏在后面的帕累托最优呢？实际出现的运行平稳局面都只是纳什均衡。至于如何打破纳什均衡从而获得帕累托最优的结果，导致了重大的方法论分歧。

自由贸易者主张：三个前提条件不成立，那就改善。通过法制、社群等手段来强化所要求的前提条件使其得到满足，继而仍是鼓励参与者自由贸易，通过合作博弈的方式打破非合作博弈下的纳什均衡；而凯恩斯主义者则认为既然我们的目标是全局的帕累托最优，那我们的中央政权就直接按照构想的最优方案分配资源就可以了，干嘛还要通过每个参与者自由博弈的缓慢过程来逼近这个目标。

然而事实是两种方法均有不足：自由贸易者并不能真正彻底的改善前提条件不成立的问题，因为真实世界的人性确实很复杂，纳什均衡的阻力仍然存在；而凯恩斯主义者又过高的评价了公权力的能力。怎么可能指望中央政权真的是一个完全通晓经济真理，同时又毫无私心的上帝呢？他只不过是一个新进场的更可怕的博弈玩家。

再把格局放大一点，中美博弈也是这个道理。中国在改革开放初期，凭借飞速增长的对外贸易来做大经济盘子，又通过高强度的投资模式来尝试直接塑造帕累托最优分配。由于那个时候起点很低，经济的局面也不复杂，所以任何的方案即使做不到是帕累托最优，但起码也是帕累托改进。时至今日，既得利益者已经广泛存在，经济运行的复杂性也难以由中央全面掌控，帕累托改进方式已经很难找到施展空间。所以中央提出经济调结构的背后理念就是回归亚当斯密的方法，同时也是简政放权和深化改革的动力。而作为世界领袖的美国最近在大选中呈现出的民粹思潮，是美国国家焦虑的集中体现。最为自由贸易曾经的旗手，他们突然意识到，之前自己鼓励的自由贸易规则实际上对自己的亚洲盟国没有形成整合。所有的国家在背靠背的情况下，进行非合作的博弈，所达成的纳什均衡正在快速倾向于增强中国的实力。因此所谓的亚太再平衡本质上不过是美国要和自己的亚太伙伴达成合作，重新塑造一种有利于美国的纳什均衡。中国和美国毫无疑问是世界的两强，两国如不真正的打破非合作博弈下的纳什均衡，那么全球级别的帕累托最优就永远无法实现。然而价值观的巨大分歧和战略互信的不足，依然制约着二者的融合。我们就始终是禁锢在困境中的那两个囚徒。

福利经济学第一基本定理，或者福利经济学第一定律，是指在经济主体的偏好被良好定义，并满足以下三个条件时：1.充分竞争2.没有信息不对称 3.没有外部性，市场将会达到帕累托最优的竞争均衡。此时每个经济个体所达到的纳什均衡即为经济体的帕累托最优状态。

福利经济学第二基本定理，或者福利经济学第二定律，是指在完全竞争的市场条件下，政府所要做的事情是改变个人之间禀赋的初始分配状态，其余的一切都可以由市场来解决。每一种具有帕累托效率的资源配置都可以通过市场机制实现。

福利经济学两大定理分别说明了市场可以解决两大问题: 效率和公平。福利经济学第一定理指出，在满足一定条件下，竞争性市场均衡配置是帕累托有效的，即市场机制能够解决效率问题。但是，有效率并不意味着公平，比如在一个贫富悬殊的社会也可能是帕累托最优的，如何解决这个问题？福利经济学第二定理告诉我们，满足一定条件，在在给定某种禀赋配置下，帕累托有效配置可以通过竞争性市场均衡来实现，换句话说，要实现公平目标，只要对初始禀赋进行调整，剩下的交给市场即可，这也说明公平和效率是可以兼顾的。关于福利经济学第二定理，还需要说明一点的是，对禀赋的调整不需要对所有产品进行分配，只需调整其中一种产品（如土地）即可。

对于HLC erc20 token过渡到qitmeer公链这个过程，更倾向于通过持币者与矿工之间的反复博弈最终达到纳什均衡的过程，因此，我们需要对多次的反复博弈过程进行模拟，导向一个较好的合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。这个过程中出现的激励不相容等问题，需要我们在模拟过程中通过制度设计达到完善。同时在运营的过程中，对于那三个条件的不断改善，尽管会出现阻力，但核心点在于要有充分的自由博弈条件，这就是我们的核心。

因此测试网络的过渡方案可以依照福利经济学第二定理，这里有一个想法就是引入一个"挖矿权"的设计。

在此之前的方案中，加上“挖矿权”这个条件，初始状态矿工的挖矿权是没有被分配出去的token销毁而得到的，当这部分挖完以后，矿工还有动力继续挖矿的时候怎么办？因为已经没有挖矿的额度了，那么就需要在市场回购流通中的token变成可挖的额度，这就是“挖矿权”。

我们的核心逻辑就是每产生一个p-meer就要销毁一个token，因此还有需求继续挖矿的话就需要回购流通中的token销毁产生可挖的额度。当token价格低的时候，矿工根据挖矿成本在加上token价格，在市场上回购token销毁换得挖矿额度产生p-meer，价格高的时候又可以将p-meer换成token进行流通，最终会达到一个均衡。

当然这个只是一个思路，大家可以提供更多的思路，让矿工与持币者之间进行博弈，如果“挖矿权”的引入，会让流通中token逐渐变少，那么无形中提升的是p-meer的价值，也就是我们主网的价值。这就是完全的市场行为，而非是凯恩斯主义者提出来的让基金会主导的行为，大家是否认同这点？

Qitmeer / Economic-model