当前位置:首页  >  70周年校庆  >  往事随想

数 学 让 你 更 聪 明

                      

                     ------ 例说博弈论

                                     游若云 教授

    1. 概说

    博弈论又称对策论,是现代数学分支---运筹学的一个组成部分,最初是研究象棋、桥牌与赌博中的胜负问题,现在已经广泛地应用于经济学、政治科学与军事战略等领域。

    形成一局博弈应有三个要素:(1)一局博弈必有两个或两个以上的人参与。(2)局中人可以采取的行动方案,即做出的决策。(3)局中人可以得到的回报。

    博弈论讨论的是“理性人”的博弈行为,也就是说,在一局博弈中,局中人都会选择最佳决策,使自己取得最大回报,而不关心别人的得失。那么什么是非理性人的博弈行为?我们说一个笑话吧。某天,某甲遇到了传说中的神明能人,能人对他说,你许个愿吧,想得到什么,都可以满足你,条件是以你所得的双倍给予你的邻居。甲大喜,这回要发财啦!但转念一想,不对呀,这白白地让邻居捡了个便宜,而且比自己所得还要多,无论如何不能让这种事情发生。于是考虑良久,无奈地对能人说:你把我打个半死吧!这里,甲的决策由感情因素所支配,不是理性人的博弈行为,不属博弈论的研讨范围。

    请注意,这里所说的“理性人”,乃是博弈论中的术语,是博弈论研讨的对象,不应以一般道德标准来评论。

    为了说明作为理性人的博弈决策,我们来分析一个有名的案例----海盗分宝石。

    话说有五个海盗抢到100颗宝石,每颗大小一样,价格相同,都价值连城。在讨论分赃时,谁都想得到最多,经争论商得如下办法:先抽签决定排名顺序,之后,由第1号海盗提出分配方案,如果得到半数或以上的人同意,则按此方案进行分配,否则,方案作废,同时1号海盗出局,取消分配资格。接着由 2号海盗提出方案,如此类推。

    那么,1号海盗将会提出怎样的分配方案,让自己获得最大利益?如果平分,各得20颗宝石,那么1号海盗并没有比其他人获得更多的宝石,这是平庸的方案,对1号海盗来说并非最佳决策。分析这类问题,一般先从最简单的情况开始,假定前三个海盗均已出局,仅剩下4号与5号两个海盗,这时4号海盗无论提出怎样的方案,都能通过,4号海盗将独得全部100颗宝石,而5号海盗一颗也没有。当然,5号海盗最不愿意看到出现这种情况。因此,3号海盗的方案只要对5号海盗有一点好处,定能得到5号海盗的支持。于是,3号海盗的最佳方案是,自己得99颗宝石,5号海盗得1颗 ,而不给4号海盗。同理,4号海盗最不愿意看到出现这种情况。因此,2号海盗的方案只要对4号海盗有一点好处,定能得到4号海盗的支持。于是,2号海盗的最佳方案是,自己得99颗宝石,4号海盗得1颗,不给3号与5号海盗。现在,我们知道了1号海盗的最佳方案应该是,自己得98颗宝石,3号与5号海盗各得1颗宝石,而不给2号与4号海盗。

    1号海盗的分配方案,初看出乎意外,依直觉似不可信,但据严格的逻辑推理,不容置疑,这个方案确是1号海盗的最佳决策!

    当然,在这一局博弈中,假定每个海盗都属“理性人”,都只考虑自己的利益,而且都明白博弈策略。

     2.序贯博弈

    大家都熟悉田忌赛马的故事,说的是,齐国大将田忌与齐威王赛马,约定各选上、中、下三个等级的马各一匹,依等次比赛快慢,定出胜负。结果每次比赛田忌皆输。好友孙膑献策,以下马对彼上马,上马对彼中马,中马对彼下马,结果田忌以21胜了齐威王。

    这个故事说明,当知道了对手如何出招之后,做出对自己有利的决策,这是田忌获胜的关键所在。因此,顺序很重要,对博弈的胜负起关键作用。这类博弈称为序贯博弈。

    如果齐威王也不依约定出招,那么情况会是怎样呢?分析如下:

    每方各有上、中、下三匹马,每次任选一匹马参赛,赛三次,所选马匹不得重复,共有9个可能得胜结果。假定每次比赛,胜者得1分,负者得0分。那么,齐威王的上马全无敌,可得3分,齐威王的中马可胜田忌的中马与下马,可得2分,齐威王的下马可胜田忌的下马,可得1分。反观田忌,上马可得2分,中马可得1分,而下马皆输,得0分。因此,如果双方同时随意出招,那么9个可能得胜结果中,齐威王占有6个,得胜率为6/9=2/3,而田忌则只有3/9=1/3的取胜机会。

    双方同时做出决策的博弈,称为同时博弈。 由上所述,对于同时博弈,田忌还是处于劣势

    3.一次性博弈与重复博弈

    先说一个实例。大家熟知李嘉诚是台湾大富豪,人们好奇他发家致富的奥秘何在?有一天,有位记者采访李泽楷,问:你的父亲李嘉诚究竟教会了你怎样的賺钱秘诀?李泽楷回答说:父亲叮嘱过,你和别人合作,假如你拿7分合理,8分也说得过去,那么我们李家拿6分就可以了。

    噢,原来如此,少拿2分,就是奥秘之所在了。其实这个奥秘也简单,与人合作,让利2分,合作者自然多起来,一旦生意兴隆通四海,自然财源茂盛达三江了,这就是生意场上常说的薄利多销的道理。在博弈论中我们称之为重复博弈的决策。相反,如果只是一次性博弈,那么决策者就会采取最高利益为原则,李家就应该拿8分了。

    历史上有孔融让梨的故事,暂且不说伦理道德的教育问题,从重复博弈的观点来看,孔融取小梨乃是聪明的最佳决策。每一位旅游者可能都有过同样的经历,在旅游点的购物,常常上当受骗。一是,旅游点的生意人,采取的是一次性博弈行为,当然以获取最高利益为原则。二是,信息不对称,卖方熟知自己商品的真伪与价格,而买方却不知情或所知甚少。因此,作为旅游者的策略应该是不在旅游点购物为最佳。当然,这会损害导游小姐的利益,但,作为理性人就顾不及这些了。

    4.零和博弈

    在一个赌局中,庄家为一方,赌客为另一方,庄家所赢,必是赌客所输,反之亦然。如果赢为正值,输为负值,那么输赢之和为零,这正是零和博弈的意思。

    在一局零和博弈中,一方的收益恰是对方的付出。如一局对弈,若非和局,必是一胜一负,因而,双方的决策都只有一个目标,擒拿对方老帅,置对方于死地。因此,零和博弈属于非合作博弈。

    历史上刘项之争就属零和博弈,项羽不听亚父范增的建言,在鸿门宴上放过刘邦,实乃下策,终于导致失败,自刎乌江。诸葛亮七擒孟获,同样是“放”策略,但属上策,因为诸葛与孟之争属正和博弈,在这样博弈中有可能双赢,史实表明诸葛亮的策略取得了成功。甲因财产问题与乙打官司,甲赢,获得这份财产,乙输失去这份财产,看似零和博弈,但甲方要支付不菲的律师费用,因此,甲得(为正值)与乙失(为负值)之和为负,这是一局负和博弈。当然,如果将律师也算作博弈的局中人,甲与律师联手为一方,乙为另一方,那么得失之和仍为零,又是一局零和博弈了。

     零和博弈之所以广受关注,主要是因为人们发现社会的方方面面都与零和博弈有类似的局面。房地产开发商得到土地发财了,农民失去土地贫困了;工业生产发展了,自然资源减少了;一将功成万骨枯;胜利者的光荣背后往往隐藏着失败者的辛酸和苦涩。从个人到国家,从政治到经济,似乎无不验证了世界正是一个巨大的零和博弈场。

    20世纪以来,人类在经历了两次世界大战、经济的高速增长、科技进步、全球一体化以及日益严重的环境污染之后,人们开始认识到,虽然在竞争的社会中,也应力争利己而不损人;发展经济而不损害环境;自己胜出而不让对方受到伤害;等等。也就是说,零和博弈的观念正逐渐被正和博弈(双赢)观念所取代。观念的转变意味着社会的文明与进步。当然,要最终达到从零和走向正和,迎来皆大欢喜的双赢结局,这需要各方真诚有效的合作,否则,双赢的局面就不会出现,吃亏的还是局中人自己。大家都知道,国共之争是一局零和博弈,重庆谈判原希望从零和走向正和,但缺乏真诚而有效的合作,最终失败,没有出现双赢的局面,其损害在几十后的今天仍在延续!

     下面,我们引用电影《美丽心灵》中的一个情节,来解读怎样从零和走向正和。《美丽心灵》是一部改编自同名传记而获得奥斯卡金像奖的电影。影片讲述的就是因对博弈论做出重大贡献而获1994年诺贝尔经济学奖的数学家约翰·福布斯·纳什的故事。电影于2001年在美国上映。

     电影中有这样的一段情节:在一个烈日炎炎的下午,约翰·纳什教授正在上课,教室窗外有几个工人正在施工,机器的响声成了刺耳的噪音,于是纳什走到窗前狠狠地把窗户关上。马上有同学提出意见:“教授,请别关窗子,实在太热了!”而纳什教授一脸严肃地回答说:“课堂的安静比你舒不舒服重要得多!”然后转过身一边嘴里叨叨着“给你们来上课,在我看来不但耽误了你们的时间,也耽误了我的宝贵时间……”,一边在黑板上写着数学公式。正当此时,一位叫阿丽莎的漂亮女学生(后来成了纳什的妻子)走到窗边打开了窗子,电影中纳什用责备的眼神看着阿丽莎:“小姐……”,而阿丽莎对窗外的工人说道:“打扰一下,嗨!我们有点小小的问题,关上窗户,这里会很热;开着,却又太吵。我想能不能请你们先修别的地方,大约45分钟就好了。”正在干活的工人愉快地说:“没问题!”,又回头对自己的伙伴们说:“伙计们,让我们先休息一下吧!”阿丽莎回过头来快活地看着纳什教授,纳什教授也微笑地看着阿丽莎,既像是讲课,又像是在评论她的做法似地对同学们说:“你们会发现在多元微积分中,往往一个难题会有多种解答。”

  这里,阿丽莎对“开窗难题”的解答,使得原本的零和博弈变成了双赢的结果:同学们既不必忍受室内的高温,教授也可以在安静的环境中讲课,结果不再是0,而成了+2。由此我们可以看到,很多看似无法调和的矛盾,其实并不一定是你死我活的僵局,那些看似零和博弈或者是负和博弈的问题,也会因为参与者的巧妙设计而转为正和博弈。正如纳什教授所说:“多元微积分中,往往一个难题会有多种解答。”这一点无论是在生活中还是工作上;无论是平民百姓还是政府官员都能从中得到有益的启示。

      5.纳什均衡

    在上一段我们提到了约翰.纳什的名字,也提到由于他对博弈论的重大贡献,获得1994年诺贝尔经济学奖。以他名字命名的纳什均衡,就是他的最有影响也最为杰出的贡献。

    纳什均衡简单地说就是,一个策略组合中,所有的参与者面临这样的一种情况,当其他人不改变策略时,他此时的策略是最好的,每一个理性的参与者都不会有单独改变策略的冲动,这时,这一策略组合达到了均衡。

    下面来分析一个典型的例子---囚徒困境。

囚徒困境说的是,警方拘捕两个同案犯罪嫌疑犯甲与乙,在隔离审问时,甲、乙所面临的认罪策略选择的问题。警方将政策分别告诉他们:

(1).如果一方坦白,另一方抵赖,则坦白者从宽,判刑1个月,而抵赖者从严得坐牢10年。

    (2).如果双方都坦白,各判坐牢5年。

(3).如果双方都抵赖,则以妨碍公务罪各判坐牢1年。

    现在摆在甲、乙面前的选择无非两种:坦白或抵赖(不坦白)。甲想,当自己选择抵赖时,若乙坦白,则被判刑10年,若乙也抵赖,则判1年;当自己选择坦白时,若乙也坦白,则获刑5年,若乙抵赖,则只有1个月的刑期。前者坐牢或10年或1年,而后者坐牢或5年或1个月,两相比较,选择坦白应是甲的最佳策略。同样,对乙来说也是选择坦白为最佳策略。这样甲与乙的最佳策略组合(坦白,坦白),就是这局非合作博弈的纳什均衡。

    我们注意到,选择“坦白”虽然分别是两人的最佳决策,但不是他们两人共同的最佳策略。如果两人有机会串供(合作)的话,他们将都会选择抵赖,这样只需坐牢1年,而不是5年了。因此,囚徒困境反映了一个很深刻的问题,虽然对个人而言是理性的选择,但对整体而言却不是理性的,揭示了个人理性与集体理性的矛盾。

    纳什均衡的提出让我们看到,在个人理性与集体理性的冲突的情况下,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也即对所有人都不利的结局。同时,也告诫我们合作才真正是有利的“利己策略”,才是获得双赢局面一条途径。下面我们来分析几个例子。

    价格博弈:设有产家甲与乙,为推销相同的产品展开了价格战。这时甲与乙双方都会采取低价格策略,于是其结局是一个“纳什均衡”。受益者是消费者,而产家则谁都没有捞到好处。所以,价格战都是短命的,绝无可能持久进行。  

    污染博弈:如果政府没有严格的环境管制,所有企业都会从利己的目的出发,采取不顾环境的策略,从而进入“纳什均衡”状态。这时,如果有某个企业投资治理污染,而其他企业仍然不顾环境污染,那么这个企业的生产成本就会增加,价格就要提高,它的产品就没有竞争力,甚至企业还要破产。直到20世纪90年代中期,中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时,企业才会采取低污染的策略。当所有企业都采取低污染的策略时,仍有可能获得与高污染同样的利润,但环境将更好了。

  关税博弈:任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择,甲国试图对乙国进行进口贸易限制,会采取提高关税的策略,乙国必然会进行反击,也提高关税,这也是一个“纳什均衡”。这个均衡是贸易双方采取不合作博弈的策略,结果双方谁也没有捞到好处。反之,如果甲与乙合作,从互惠互利的原则出发,双方都减少关税限制,结果大家都从贸易自由中获得了最大利益。

    6. 低效用区的决策陷阱

    我们说过,博弈的局中人都是“理性”的,作为理性人的决策都是让自己获得最大利益,但实际情况往往并非如此,这就出现了所谓的“低效用区的决策陷阱”。

    比如说,彩票的发行者早就算好了彩票命中率与命中所得相乘,大大地低于购买彩票者的付出,这样,彩票发行者定将获得高额回报。对于这样的局面,购买彩票就要承担极高的损失的风险,不买彩票则没有风险。作为理性人的最佳策略应该是不买彩票,但还是有众多的人去购买各式各样的彩票,而且屡败屡买,乐此不疲。为什么?因为,每次购买彩票的付出只是少量金额,损失不很明显,而寄托的希望却是很大,在这个因素的驱使下,做出了非理性的决策,这就是低效用区的决策陷阱。彩票发行者正是利用了这个陷阱而发了大财!

    当走进赌场时便会看到一排排老虎机,许多人都喜欢上去碰碰运气。其实,老虎机的性质与彩票一样,一台老虎机也就是一种彩票,只是命中与否立即分晓,更能满足投注者的急切心理。精明的赌客常常选择久未出现命中较大金额的老虎机,这样命中的机会也许稍大些,但对赌场老板来说无所谓,只要这台老虎机有人玩下去,老板永远是赢家!

     7.“沉没成本”的泥沼

     “沉没成本”的意思是说,在正式完成交易之前投入的成本,如时间、金钱、精力等,如果交易失败将无法收回。在继续进行博弈决策时,如果对沉没成本过分眷恋,就可能会陷入沉没成本的泥沼,造成更大的损失。

    赌徒常常会因翻本(沉没成本)而继续赌博,结果必定越陷越深,直到倾家荡产,甚至负债累累。

    在日常生活中,也往往发生类似的情况。妈妈为儿子买了一台钢琴,但儿子对钢琴没有兴趣,拒绝学习,使钢琴闲置着。一日,友人向妈妈建议,是否请一位钢琴家庭教师?妈妈想,既然钢琴都买了,那就请个家庭教师吧。但儿子不会因有家庭教师而对钢琴发生兴趣,还会继续拒绝学习。这里,妈妈做出请家庭教师的决策时,已买钢琴(沉没成本)起了重要作用。于是,继续第一次投资(买钢琴)的错误,造成了更大的损失。

    在《三国演义》中,有一段这样的情节:东吴为了讨回被刘备“借去”的荆州,大都督周瑜设计以假招亲诱捕刘备,被诸葛亮识破。刘备在诸葛亮的精心安排下,亲赴东吴,将计就计娶到了孙权的妹妹,史称孙夫人。目的达到后,自然要携带战利品(孙夫人)离开东吴返回荆州,但周瑜心有不甘,率领水军截杀而来,结果又中埋伏,损兵折将,大败而归。这就是历史上“周郎妙计安天下,赔了夫人又折兵”的故事。

    在这一局博弈中,假招亲的计谋失败后,周瑜理应醒悟,诸葛亮已经洞察一切,刘备的返回自然也在其策划之中,因不甘心而贸然率兵截杀,实乃下策,不但挽回不了已经付出的“沉没成本”,包括声誉、财力、精力以及孙夫人在内,而是重蹈覆辙,再一次中了诸葛亮的计谋。

    上世纪60年代,英、法两国政府联合投资开发大型超音速客机——协和飞机。项目开展不久,发现费用昂贵,超乎预计,是否适合市场需求也无把握,但之前的投资巨大,不忍牺牲,最终还是增加投资,协和飞机终于研制成功。但因耗油大,噪音大,污染严重,营运成本高等原因,不合市场需求而淘汰,两国政府蒙受巨大损失。号称发达国家,不乏智囊精英,也不免受“沉没成本”的诱惑而陷入泥沼,成为博弈论教材的一个著名案例----“协和谬误”。

    在博弈论中有个鳄鱼法则,说的是:当发现自己的行动背离了既定的方向,必须立即停止时,就要果断地做出决策,不得存有任何侥幸心理,而延误时期,造成更大损失。好比被鳄鱼咬住了一只手,就要有壮士断臂的气概,牺牲这只手。如果想用另一只手去挽救,那么失去的将是一双手了。上述诸例说明,理解这个法则容易,但实践这个法则却是很难很难啊!

     8. 共同知识

    共同知识是指在一局博弈中,每个局中人不仅知道这个事实,而且还知道其他局中人都知道这个事实,这样,“这个事实”就成为所有局中人的共同知识。共同知识的获取与利用对博弈决策至关重要。下面我们来分析一个例子。

    设有4名学生,教师给每人头上戴一顶帽子。帽子只有红与白两种颜色,每个学生可以看到其他人帽子的颜色,但不知道自己头上帽子是什么颜色。

    现在教师问:你们之中至少有一人戴的是红色的帽子,你们知道自己头上帽子的颜色吗?

    4个学生望了一下别人头上的帽子,都回答:不知道。

    分析:这个回答表明没有一个学生看到三顶白帽子,否则就知道自己头上是红帽子了。由此推得他们之中至少有两人戴的是红帽子。这是一个新的共同知识,而比教师给的第一个共同知识“至少有一顶红帽子”进了一步。

    教师再次问:现在你们知道自己头上帽子的颜色吗?

    4个学生互望一下,又都回答:不知道。

    分析:第二次回答不知道之后,4个学生又都明白了,没有一个人看到两顶白帽子,否则,此人就知道自己头上是红帽子了。于是,他们之中至少有三顶红帽子。这又是他们的共同知识,而且是依据前一个共同知识做出判断而得到的,同时,又比前一个共同知识进了一步。

    教师第三次问:现在你们知道自己头上帽子是什么颜色吗?

    4个学生都回答:不知道。但紧接着又都回答:知道了,是红色的。

   分析:因为在听到所有人都回答“不知道”时,他们顿悟了,没有一个人看到白帽子,否则,此人就知道自己戴的是红帽子了。所以他们头上戴的都是红帽子。

    在这个例子中,从教师的第一次问话,与学生的每一次回答,都给4个学生增添新的共同知识,而且,每一次获得的共同知识都成为下一次决策的依据。这是一个层层相依、步步推进的认知过程。至于共同知识的获取,当然要靠每一位局中人的智慧与判断能力了。

     9.结束语

    博弈论的成熟发展虽然只有几十年的历史,但现在已是一株枝繁叶茂的大树,并且广泛地应用于社会的方方面面。本文只挑选其中的几个部分,通俗而简明地解说博弈论的思想方法,希望不论是熟悉或不熟悉数学的朋友,都能从中获得受益。

      人生本来就是一局又一局的博弈组成,每一局博弈的决策都关乎成败得失,增加一点博弈的常识,也许在下一局博弈中,有助你做出更佳决策,赢得更好的结局!

      参考文献:图解博弈论 李志新编著 中央编译出版社20103月第一版

            

 

 

附言王晶昕曾是我的学生,我们虽师生亦朋友,学术上常有切磋。他生前曾阅读本文,提出许多有益建言,特别对孙膑违规取胜,并不认同。这属道德问题,本文未直接评说,而是从数学方面说明,如果齐威王同样不按比赛规则出招,田忌获胜的机率只是1/3。对处于劣势的田忌,孙膑的办法是不顾诚信、违背事先约定的比赛规则而取胜。这种行为,在竞赛场上是不允许的,因此,不应赞扬,不宜仿效。这正是王晶昕的意思。正当他的忌日周年,特发本文,以表悼念。