第4章纳什均衡：博弈困境的“理解性”

书名：博弈论的智慧
作者名：张影
本章字数：5798字
更新时间：2016-08-29 10:55:28

在一策略组合中，所有的参与者面临同一种情况，当其他人不改变策略时，他此时的策略是最好的。也就是说，在纳什均衡中，各方的预期全部会实现，所选的策略亦属最佳。但，纳什均衡只局限于任何局中人不想单方面变换策略的基础上，而忽视了其他局中人改变策略的可能性。

纳什均衡的位置

在博弈论中，纳什均衡是一个重量级的概念，它主要描述双方博弈的这样一种对局形势：任何一方单独改变策略，都不会得到好处。当博弈双方的参与者处于对抗的条件下，双方都可以通过向对方提出威胁和要求，找到双方能够接受的解决方案，而不至于因为各自追求自我利益最大化而无法达成妥协，甚至两败俱伤。稳定的均衡点建立在找到各自的“占优策略”，即无论对方作何选择，这一策略始终应优于其他策略。所以，也可以说纳什均衡状态是外界力量相互作用的稳定结局。

为了进一步说明纳什均衡的意义，让我们看一个杂货铺定位博弈的例子。

设想在一个小镇有一条公路笔直地横贯东西，有两家杂货铺要在这个小镇开张，他们卖一样的东西，价格也完全一样。

现在，因为商品一样，价格也一样，居民到哪个杂货铺买东西，就看哪个杂货铺距离自己较近。因此，对于每个杂货铺而言，都希望靠近自己一边的居民比较多一些。

我们可以假设，把这条马路四等分，第一家杂货铺可设在1/4的位置，第二家杂货铺可设在3/4的位置上。这应该是一种很好的配置方案。按照这种配置，每个杂货铺的“势力范围”都是这条公路的1/2。

可是，如果杂货铺如果只以自己赢利为目的，是不会安于这样的位置的。如果第一家决定扩大自己的“势力范围”，其市场份额和经济利益也必将会有所提升。当然，这种想法也同样适用于第二家杂货铺。

那么，哪些位置才是稳定的位置呢？在两个杂货铺定位的市场竞争博弈中，位于左边的要向右靠，位于右边的要向左挤，最后的结局是两家杂货铺紧挨着位于中点1/2的位置。这是纳什均衡的位置。因为在这个位置，谁要是单独移开“一点”，就会有丧失部分市场份额之虞，因此谁也不会想偏离中点的位置。这时候，每个杂货铺的“势力范围”仍然还是原来的1/2，每个杂货铺的势力范围仍然还是原来的势力范围。

上面这样推论“只有两家杂货铺都紧挨着在中点开张”才是稳定的“纳什均衡”结局，前提是每家杂货铺都是只关心自己眼前商业利益的“理性人”假设。在这种情况下，“理性人”的特征就是“唯利是图”。既然唯利是图，就要千方百计挤占对方的地盘，最终造成两家“剑拔弩张”挤在中点的结局。

现在我们一些管理不好的摊贩市场就是这样，摊贩都要往好地方挤，谁也不肯礼让。如果上面讲的杂货铺注意树立亲民形象，不希望居民认为他唯利是图，那么设在道路上的1/4和3/4的位置是有道理的。但是在实际生活之中，如果第一家杂货铺有步步紧逼的情况，第二家杂货铺则往往会采取相应的措施予以应对。所以，只要承认“理性人”假设，则两家挤在中点就是唯一稳定的策略选择和唯一的纳什均衡。

现在，很多电视台之间在时间段上的重叠问题本质上就是位置博弈。事实上，我们只要将时间设想为上述案例中的公路，就不难分析出：市场竞争的结果就是，观众青睐的精彩节目将集中在同一黄金时段。在这种情况下，电视台之间的竞争会更加激烈。为了获得收视率，电视台只能在制作质量上下工夫，最终获得实惠的仍然是广大观众。

的确，这些规律性的行为，背后往往有我们在上面讲过的博弈论道理。

纳什均衡的思想其实并不复杂，在博弈达到纳什均衡时，局中的每一个博弈者都不可能因为单方面改变自己的策略而增加获益，于是各方为了自己利益的最大化而选择了某种最优策略，并与其他对手达成了某种暂时的平衡。在外界环境没有变化的情况下，倘若有关各方坚持原有的利益最大化原则并理性面对现实，那么这种平衡状况就能够长期保持稳定。

再简单一点说，一个策略组合中，所有的参与者面临这样的一种情况：当其他人不改变策略时，他此时的策略是最好的。也就是说，此时如果他改变策略，他的收益将会降低。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。

由此可见，纳什均衡是一种稳定的博弈结果。打一个比方，如果把一个乒乓球，放到一个光滑的铁锅里，不论其初始位置在何处，最终都会稳定地停留在锅底，这时的锅底就可称为是一个纳什均衡点。相反，如果锅是扣在地上的，那么一个乒乓球很难在锅底部位保持稳定，因为往任何方向的一点点移动，都会使球立刻离开锅底。这时的锅底部位就不是一个纳什均衡点了。

情侣博弈中的纳什均衡

假设有一对热恋中的情侣A和B，他们平时工作都很繁忙，很少能够在一起共度浪漫时光。一次，周末两人约会。男A是个足球迷，那天晚上正是中国足球队要在世界杯外围赛中和伊朗队作生死之战。女B则是艺术爱好者，对足球一点都不感兴趣，而且当天晚上正好有俄罗斯著名芭蕾舞团莅临该市演出芭蕾舞剧《胡桃夹子》。如此一来，对于两个人来讲，一个在家里看电视直播的足球赛，一个去剧院看芭蕾舞演出才是他们的最佳选择。但问题是他们是热恋中的情侣，分开各自度过难得的周末时光，是两人最不情愿的事情。很显然，男女要么都去看足球，要么都去看芭蕾，这两种情况达成了该博弈的纳什均衡。这个博弈还有一个特征就是，每一个参与者都不存在优势策略，因为不管是男A或是女B，都会发现自己的最优策略取决于对方的选择。这样一来，他们就面临一场温情笼罩下的“博弈”。

我们不妨采取定量方式来作具体分析，假设男A看足球的满意程度为10分，看芭蕾的满意程度为2分；女B看芭蕾的满意程度为10分，看足球的满意程度也为2分；两人在一起看足球或芭蕾的满意程度各会提高10分。在这个时候，将会出现如下几种情况：

比方说两人一起看足球，男A满意度为20分，女B满意度为12，如果男A改变主意单独去看足球，变成双方满意度都是10分，没有好处；如果女B改变主意单独去看芭蕾，也变成双方满意度也是10分，也没有好处，所以，两人一起走看足球是稳定的结局。同样，两人都去看芭蕾也是稳定的结局。

这种稳定的结局就是“纳什均衡”。在情侣博弈中，双方都去看足球，或者双方都去看芭蕾，是博弈的两个纳什均衡。就单次情侣博弈而言，最后结局究竟落实到哪一个“纳什均衡”，是博弈论本身无法解决的问题。

如果时间紧迫，双方来不及联系并且事先也没有商量好，每个人只好单独决定自己去看什么。这个时候，很可能会出现的情况是男A去看足球，女B去看芭蕾。

现在，芭蕾不是男A的劣势策略，因为如果女B坚持看芭蕾，他选足球只得10，选芭蕾却还可得12。足球当然更不是男A的劣势策略。所以，男A没有严格的劣势策略。同样，女B也没有严格的劣势策略。

但是，他们总会作出一个较好的选择，因为他们是热恋中的情侣。在情侣博弈中，双方都去看足球或者双方都去看芭蕾，就是我们所说的相对优势策略的组合：一旦处于这样的位置，双方都不想单独改变策略，因为单独改变没有好处。

需要强调的是：均衡不一定是博弈的最优结果。很明显的，尽管情侣博弈中的两个纳什均衡都是有效率的，但这个博弈的不确定性却导致低效率的情况可能发生。

当然，这对恋人约会之前打个电话，商量好再做约定，这比双方不进行沟通而私自决断要好得多。情侣双方可以随便定个规则，如双方商议，在看球赛或芭蕾的前一天猜硬币，谁猜中了就听从谁的意见。

假如这对恋人非常强势，比如男A是个大男子主义者，直接告诉女B他是一定会选择足球赛的，完全不会去看芭蕾。如果这个女主角B是个乖顺的小女人，结果当然仍是达到纳什均衡：双方都去看足球。当然，情况反之亦然。一般在这种情况下，结果会体现强硬一方的先动优势，虽然双方都会得好处，但是，强硬地先行动的一方会得益多一些。

但问题是，如果男A是大男子主义者，女B是女权主义者，双方都威胁对方不会选择去看对方喜好的。这样的结果将达到次优。

更为糟糕的情况是，双方虽然在口头上严词相对、威胁对方，但内心里反而是相互体谅对方，最后进行策略选择的时候反而都作出让步，各自选择了对方喜好的。最终的结果很显然是最差的方案。

消去普通劣势策略

A计划为自家的新房装修，A和装修公司进行一次讨价还价的博弈。A设计了装修的初步方案，装修公司要价20000元，这样他可以赚10000元。A嫌贵，要求装修公司把具体所需物料费用拿给他看。装修公司最后同意了，并且最终以12000元的价格成交，只赚了6000元。A则省了8000元。

在这场博弈中，两个参与者分别是A和装修公司。A的博弈策略有两个，要求看存根和不要求看存根。装修公司的博弈策略也有两个，给看或者不给看。

在这里，不要求看装修物料清单是A的劣势策略。装修公司呢？如果A不要求看装修物料清单，无论装修公司是否预备给他看，结果都是A没有看装修物料清单，装修公司都可以赚10000元；但是如果A要求看装修物料清单，那么着眼于这一次的交易机会，装修公司给他看存根可以赚6000元，不给他看就会什么也赚不到。所以“只要A要求，就给他看装修物料清单”应该是优势策略，不给看应该是劣势策略。那么，形式上运用前面讲过的劣势策略消去法，可以得到这个博弈的一个均衡：A要求看装修物料清单，装修公司给A看装修物料清单，结果A省了8000元，装修公司赚了6000元。装修公司虽然没有赚10000元，但毕竟比没钱赚好；A则因为有博弈论思想，节省了8000元。

在前面我们曾经讲过囚徒困境的问题，是数据对称的博弈，即如果把A和装修公司的位置对调，双方的支付数字都没有变化。这个博弈讲的是不对称的博弈，即双方的得失数目不对称。

需要说明的是，这里说的劣势策略，不是指被全面的严格的优势策略压住的严格劣势策略。全面的严格的优势策略要求，不论对方采取什么策略，自己采取这个策略总比采取任何别的策略都好，而且要确实显出其优势来。可是在上述博弈中没有这样的严格优势策略。“要求看”不是全面的严格的优势策略要求，因为如果对方采用“横竖不给看”策略，A采用“要求看”策略的博弈结局并不比采用“不要求看”策略的博弈结局好。所以，“不要求看”不是前面讲的被全面的严格的优势策略压住的严格劣势策略。同样，对于装修公司来说，“不给看”也不是前面所讲的被全面的严格的优势策略压住的严格劣势策略。

必须指出，这个博弈其实有两个纳什均衡。其中一个是A不要求看装修物料清单，装修公司不给看装修物料清单。请注意，要是已经处于这样的对局形势，那么如果A单独改变策略变成看装修物料清单，装修公司没改变策略仍然是不给看装修物料清单，结果A之所得仍然是0，没有得到额外的好处，所以A没有单独改变策略的激励；如果装修公司单独改变策略变成“给看”，A并没有改变策略仍然不要求看，那么装修公司的所得仍然是10000元，也不会得到什么额外的好处，所以装修公司也没有单独改变策略的激励。

在上面这一段的分析中，无论站在A方面还是站在装修公司方面，都没有一个策略全面地严格地劣于另一个策略。站在A方面，虽然“不要求看”装修物料清单比“要求看”劣，但不是全面的劣。因为如果对方采用“不给看”策略，那么A不要求看和要求看存根的付出都是10000元，比不出优劣来。站在装修公司方面，虽然“不给看”装修物料清单比“给看”装修物料清单的策略劣，但同样不是全面的劣。因为如果A 采取“不要求看”存根的策略，装修公司“不给看”和“给看”的赢利都是10000元，同样比不出优劣来。

这个博弈中，消去普通劣势策略的杀伤力比较大，它可能把普通纳什均衡删掉。但如果是严格纳什均衡，杀伤力大的普通劣势策略消去法对它也会手下留情。你只要知道严格劣势策略消去法和普通劣势策略消去法的区别，知道严格纳什均衡和普通纳什均衡的区别，就很容易想清楚这个关系。

分“蛋糕”的启示

如果一块冰淇淋蛋糕由A和B两人分配，蛋糕的分配规则如下：第一轮由A提出条件，B可以接受，从而游戏结束；B也可以不接受，则游戏进入第二轮。第二轮由B提出条件，A可以接受，从而游戏结束；A也可以不接受，于是蛋糕完全融化，游戏同样结束。

虽然大多数人基于“社会常识”或者说是善良的心理，预期一半对一半的分配方案看起来最公平，其实这个博弈却有无穷多个纳什均衡。事实上，假设蛋糕的总量是1，那么A要1/2，B要1/2，固然是一个纳什均衡；A要3/4，B要1/4，也是纳什均衡；甚至A要19/20，B只要1/20，也是纳什均衡。最“严酷”的，莫过于A要1，B什么都得不到，这也是纳什均衡。这只是事物的一个方面。当然，反过来也一样。

在这个典型的谈判过程里，蛋糕是在缓慢缩小的，而且在全部消失之前有足够的时间让人们提出许多建议和反建议。这表明，通常情况下，在一个漫长的多轮的讨价还价过程里，谁第一个提出条件并不重要。几乎一半对一半的解决方案看来还是难以避免，除非谈判长时间陷入僵持状态，“胜方”大概什么也得不到，“败方”自然也不会更好。或许，最后一个提出条件的人可以得到剩下的全部成果。不过，真要等到整个谈判过程结束，大概也没剩下多少值得赢取的东西了。得到“全部”，而“全部”却意味着什么也没有。

这看起来是非理性的，但是如果从长远着眼，希望建立或者保持自己作为一个不好对付的讨价还价者的形象，从而为日后的讨价还价奠定基础，就是理性了。因为将来的讨价还价可能是跟A进行，也可能是跟其他人进行，他们将同样得知今天自己的所作所为。在实际操作当中，A同样需要考虑到这些问题，要向B放出刚好足够的诱饵，比如留给他一小片蛋糕，引诱他上钩。

不过，一旦出现需要第二轮谈判的情况，局势就会变化，桌子上只剩下半个蛋糕了，情况将大大偏向于B。假如在第二轮A拒绝接受B的反建议，剩下的半个蛋糕就会融化，双方都将一无所获。

面对这个两轮的博弈，A现在必须向前展望其最初提出的条件会有什么后果：如果其所提出的条件太苛刻，B可以拒绝这个条件，从而在第二轮占据有利地位，反过来就剩下的半个蛋糕提出“接受或者放弃”的分配方案，逼迫A就范。这实际上意味着B已经将那半个蛋糕握在自己手里。

可见，如果A不能阻止这一幕发生，即如果不能阻止博弈进入第二轮，其也必将一无所获。一旦看清这一点，A会从一开始就提出与B平分这个蛋糕，这也是说，这个方案刚好足够引诱对方接受而又为自己保有一半收益。这样，他们马上达成一致，形成约定，平分这个蛋糕。

这个推理的启示是，动态博弈的所谓“向前展望、倒后推理”的原理，可能在整个博弈过程开始之前，已经确定了博弈的最后结果。

第4章 纳什均衡：博弈困境的“理解性”

第4章纳什均衡：博弈困境的“理解性”