如何运用博弈的思想约会女孩
如何和自己喜欢的女孩约会,对男孩来说是个很困难的事。电影中,主人公纳什在酒吧碰见一位美丽的女孩,于是想要与之约会,却发现他的同伴也喜欢那位女孩,于是,他需要想到一种办法,让自己能够和那位女孩约会,当然,他做到了。
显然,在这样一个约会的空间里,有这样几方博弈者:女孩方,纳什,纳什的同伴。 如果纳什和他的同伴们同时去追求这样一位女孩,那么,女孩便处于优势方,她就具有更高的选择权,选择和谁约会。而这,假使该女孩对纳什及其同伴的选择概率相同,均为q(0篇二:周樾关于博弈论的一个精彩案例
周樾:关于博弈论的一个精彩案例(海盗与金币)
在读MBA时,数据模型与决策课堂上老师讲了一个博弈论的案例有点意思,我在推理之后感觉收获很多。所以整理如下:
有五个海盗分别是ABCDE,都非常理性、聪明。他们找到了100个金币,需要想办法分配金币。
海盗有严格的等级制度,A>B>C>D>E。
海盗有分配原则:等级最高的海盗提出一种分配方案。所有的海盗投票决定是否接受
1
分配,包括提议的这个海盗。方案如果有≥1/2的人同意,则通过。若没通过,则提议者将被扔进海里,然后由下一个最高职位的海盗提出新的分配方案。直到最后。
假如你是A,你如何分配你首先是活命,其次是获得最多的金币。 课堂上很多同学给出了答案,但老师都摇头。
有的说平均分配原则,每人20金币,但这显然不行,后面4个海盗会投反对票干掉你。
有的说自己少一点,给别人多一点。这很好理解,A给自己分配的少,以避免被扔进海里,毕竟保命要紧。但这也不行,一则没有完成获得最多金币的任务,二则后面的人都是“海盗”,不会因为你的一点低调就放过你,仍然会被干掉。
还有的说自己说服另外其中两个海盗干掉另外两个然后平分金币,但这还是不行,因为有前提海盗都是理性的。
越是想不出答案,越有点意思了。应该如何设计分配方案,保证自己既活命、又收获最多金币呢
老师继续引导我们,如果正向思维经过努力想不通,或者非常复杂,尝试逆向思维,相当于从未来的世界返回到现实的世界。
于是我们反过来看:
1、 假如ABC全挂了,只剩下DE。D提出(100,0)的分配方案,一共两个人,D自己同意,≥1/2的人同意,E就没有金币了。所以E显然不会同意只剩下DE两个人。
2
2、 那么,再假定AB挂了C还或者,剩下CDE。C知道,D肯定希望联合E干掉C,那样D就能获得100个金币。所以C必须联合E,而且只要C给E哪怕1个金币,E也只能支持C,否则E一个金币也得不到。所以C的方案一定是(99,0,1)。
3、 再往前推,假定只有A挂了,剩下BCDE,B设计分配方案。B知道,如果自己被干掉,D的命运将在下一轮终结,因此自己联合D可以干掉CE,而如上轮道理,联合D只需要1个金币,于是B的方案是(99,0,1,0)。
4、 最后回到现实,ABCDE都在,你是A,现在知道怎么分配了吧你要联合的是C和E,各给他们1个金币即可,CE必须同意,否则A挂了B就会干掉CE。所以A的分配方案是(98,0,1,0,1)。
结果出来,全场哗然。A获得98个金币,大胜。
当然,这个推理还不特别严谨。在上面第三步,B是可以联合E的,方案就是(99,0,0,1),对B来说是一样的。如果B联合E,将干掉CD。若如此,A的方案可以是(98,0,1,1,0),对A来说也是一样获得98个金币。
现在,推理可以结束了。
但我在电脑上整理课堂上的思路时,我感觉到这里还没有结束。为什么呢?
我觉得还有漏洞。因为A不可能同时给出两套方案,即A必须在(98,0,1,0,1)或(98,0,1,1,0)中选一个。假如A选前者/后者,那么,如果E/D不买你帐怎么办E/D放弃A,在后面同样有机会获得同样的金币。
3
因此,我觉得A的分配方案是(97,0,1,2,0)或(97,0,1,0,2)更合适。C没有选择,所以给1个金币就会支持A。A只要从DE中二选一,给2个金币,就能彻底搞定,永无忧患。
我觉得在当前条件下,这种方案是最佳的。
当然,也可能推理过程有误,因为脑袋已经开始发热了,用脑过度。
后来知道,杂志还专门将这个推理案例进行了延伸,在金币数量足够多的前提下,海盗人数可以是200甚至更多。我脑容量有限,不敢再算了,再算都脑残了,有高手可以尝试下。
老师讲的这个案例,给我留下了很深的印象,感触如下:
1、 实话说,答案出乎我的意料。我曾直觉认为,A很惨,E最幸福,因为A要先设定方案,及时A一个金币不要,都很容易激发后面人反对被干掉,而E可能笑到最后。看来,直觉不一定是正确的,遇问题应理性分析。
2、 我们很多次在做决策的时候都抽到了A一样的签,看似身处险境,没有胜算,却能凭借智慧获得最大收益。不要随意放弃,相信还有机会,也许前面就柳暗花明又一村。
3、 刚才说了,逆向思维还是很重要的,有时能让我们柳暗花明。
4、 商战中,一切都看利益。利益决定自身选择。你怜悯别人,别人不一定同情你,商战残酷,利益面前,亦敌亦友。向适当的对手给予适当的利益很重要。
4
5、 看清事情的本质,认清属于自己的是什么,见好就收,不要觉得1个金币少,例如C就值1个金币,别太贪,别和别人提条件,否则可能连1个金币拿不到。
6、 跳出题目看问题,实际的人际关系不会像这5个人,没有他们那么聪明、理智。实际生活中,我们用A的方案可能就不行了,因为BCDE可能搞不明白后面的过程。所以A要想胜出,除了有敏锐的思维,还要有很好的语言表达与谈判能力,在很短的时间说服BCDE,我的方案就是最佳方案,如果不按我的来你们会更惨。
周樾背景:自由职业讲师,中国政法大学商学院工商管理硕士/MBA国家一级企业人力资源管理师,项目管理专业人士(PMP)曾供职于中信银行(总行级青年岗位能手)、红星美凯龙(中国家居第一品牌)和君集团(本土最大的咨询公司)等知名企业。历任管培生、培训主任、人资经理/总监、事业部总经理、合伙人等企业管理职务多年专注于员工培训与学习发展领域,丰富的培训授课与项目经验,擅长金融、通信、零售、连锁、服务业等
讲师助理:小李
联系电话:
篇三:博弈论经典案例“囚徒困境”以及其拓展
博弈论经典案例“囚徒困境”以及其拓展
05-06-13 10:57 发表于: 分类:未分类
博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),
5
理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。
“囚徒困境”
“囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是”坦白从宽,抗拒从严”,如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。
在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。A和B均坦白是这个博弈的纳什均衡。这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。即是说,不管A坦白或抵赖,B的最佳选择都是坦白。反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑8年。在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。
囚徒困境反映了个人理性和集体理性的矛盾。如果A和B都选择抵赖,各判刑1年,显然比都选择坦白各判刑8年好得多。当然,A和B可以在被警察抓到之前订立一个”攻守同盟”,但是这可能不会有用,因为它不构成纳什均衡,没有人有积极性遵守这个协定。
在经济学方面的实例:
6
一.电信价格竞争
根据我国电信业的实际情况,我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争,一开始的价格都是P0。A(中国电信)是老牌企业,实力雄厚,占据了绝大多数的市场份额;B(中国联通)则刚刚成立不久,翅膀还没有长硬,是政府为了打破垄断鼓励竞争而筹建起来的。
正因为B是政府扶植起来鼓励竞争的,所以B得到了政府的一些优惠,其中就有B的价格可以比P0低10%。这一举动,还不会对A产生多大的影响,因为A的根基实在是太牢固了。在这样的市场分配下,A、B可以达到平衡,但由于B在价格方面的优势,市场份额逐步壮大,到了一定程度,对A造成了影响。这时候,A该怎么做不妨假定:
A降价而B维持,则A获利15,B损失5,整体获利10;
A维持且B也维持,则A获利5,B获利10,整体获利15;
A维持而B降价,则A损失10,B获利15,整体获利5;
A降价且B也降价,则A损失5,B损失5,整体损失10。
从A角度看,显然降价要比维持好,降价至少可以保证比B好,在概率均等的情况下,A降价的收益为15×50%-5×50%=5,维持的收益为5×50%-10×50%=-2.5,为了自身利益的最大化,A就不可避免地选择了降价。从B角度看,效果也一样,降价同样比维持好,其降价收益为5,维持收益为2.5,它也同样会选择降价。在这轮博弈中,A、B都将降价作为策略,因此各损失5,整体损失10,整体收益是最差的。这就是此博弈最
7
终所出现的纳什均衡。我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象,各个局部都寻求利益的最大化,而整体利益却不是最优,甚至是最差。
许多其他行业的价格竞争都是典型的囚徒困境现象,如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。
二.OPEC组织成员国之间的合作与背叛
“囚徒困境”告诉我们,个人理性和集体理性之间存在矛盾,基于个人理性的正确选择会降低大家的福利,也就是说,基于个人利益最大化的前提下,帕累托改进得不到进行,帕累托最优得不到实现。
上述我们在对电信价格竞争的博弈分析中,只是一次性的“囚徒困境”博弈,因此得到了互相降价的纳什均衡。而在现实生活当中,信任与合作很少达到如此两难的境地,无论在自然界还是在人类社会,“合作”都是一种随处可见的现象。比如中东石油输出国组织(Organization of Petroleum Exporting Countries 简称OPEC)的成立,本身就是要限制各石油生产国的产量,以保持石油价格,以便获取利润,是合作的产物。OPEC之所以能够成立,各组织成员国之间之所以能够合作,是因为囚徒困境如果是一次性博弈(One shot game)的话,基于个人利益最大化,得到纳什均衡解,但如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。
合作的可能性不是必然性。博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺(Credible commitment) ,
8
向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。如果该困境同时涉及多个对手,则要在博弈对手中形成声誉,并用心地维护这个声誉。这里“可信的承诺”是一个很牵强的翻译,“Credible commitment”并不是什么空口诺言,而是实实在在的付出。所以合作是非常困难的。 所以OPEC组织经常会有成员国不遵守组织的协定,私自增加石油产量。每个成员国都这样想,只要他们不增加产量,我增加一点点产量对价格没什么影响,结果每个国家都增加产量,造成石油价格下跌,大家的利润都受到损失。当然,一些产量增加较少的国家损失更多,于是也更加大量生产,造成价格进一步下降--结果,陷入一个困境:大家都增加产量,价格下跌,大家再增加产量,价格再下跌。
理论上,几乎所有的卡特尔都会遭到失败,原因就在于卡特尔的协定(类似囚犯的攻守同盟)不是一个纳什均衡,没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了理论上,如果是无限期的合作,双方考虑长远利益,他们的合作是会成功的。但只要是有限次的合作,合作就不会成功。比如合作10次,那么在第九次博弈参与人就会采取不合作态度,因为大家都想趁最后一次机会捞一把,反正以后我也不会跟你合作了。但是大家料到第九次会出现不合作,那么就很可能在
第八次就采取不合作的态度。第八次不合作会使大家在第七次就不合作一直到,从第一次开始大家都不会采取合作态度。
以上是运用博弈论中的经典案例“囚徒困境”对现实经济生活的一些简单的理论上的分析,虽然在现实生活当中影响人们决策和态度的因素很多,但是,博弈论作为现代经济学的前沿领域,始终是一个强有力的分析工具。
囚徒困境在理论上的延伸:
9
一、 博弈中最优策略的产生
艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。
社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。
A和B各表示一个人,他们的选择是完全无差异的。选择C代表合作,选择D代表不合作。如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C的得零分,选D的得5分;如果AB都选D,双方各得1分。
显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。如果一方选C,一方选D,总体得5分。如果两人都选D,总体得2分。
对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化时,就使群体利益受损,这就是囚徒困境。在矩阵中,对于A来说,当对方选C,他选D得5分,选C只得3分;当对方选D,他选D得1分,选C得零分。因此,无论对方选C或D,对A来说,选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇,即A,B都选D时,结果是各得1分。这个结果在矩阵中并非最优。困境就在于,每个人采取各自的优超策略时,得出的解是稳定的,但不是帕累托最优的,这个结果体现
10
了个体理性与群体理性的矛盾。在数学上,这个一次性决策的矩阵没有最优解。
如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背叛的策略。既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,对策者没有一次会合作。
如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契时,对策者就能持续地各得3分,但如果持续地不合作的话,每个人就永远得1分。这样,合作的动机就显现出来。多次对局下,未来的收益应比现在的收益多一个折现率W,W越大,表示未来的收益越重要。在多人对策持续进行下去,且
W比较大,即未来充分重要时,最优的策略是与别人采取的策略有关的。假设某人的策略是,第一次合作,以后只要对方不合作一次,他就永不合作。对这种对策者,当然合作下去是上策。假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。对于总是不合作的人,也只能采取不合作的策略。
艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵相同,什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高。
第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。结果得分最高的程序是加拿大学者罗伯布写的”一报还一报”(tit for tat)。这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。艾克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即”
11
善良的”;第二,对于对方的背叛行为一定要报复,不能总是合作,即” 可激怒的”;第三,不能人家一次背叛,你就没完没了的报复,以后人家只要改为合作,你也要合作,即”宽容性”。
为了进一步验证上述结论,艾氏决定邀请更多的人再做一次游戏,并把第一次的结果公开发表。第二次征集到了62个程序,加上他自己的随机程序,又进行了一次竞赛。结果,第一名的仍是”一报还一报”。艾氏总结这次游戏的结论是:第一,”一报还一报”仍是最优策略。第二,前面提到的三个特点仍然有效,因为63人中的前15名里,只有第8名的哈灵顿程序是”不善良的”,后15名中,只有1个总是合作的是”善良的”。可激怒性和宽容性也得到了证明。此外,好的策略还必须具有的一个特点是”清晰性”,能让对方在三、五步对局内辨识出来,太复杂的对策不见得好。”一报还一报”就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。
二、 合作的进行过程及规律
”一报还一报”的策略在静态的群体中得到了很好的分数,那么,在一个动态的进化的群体中,这种合作者能否产生、发展、生存下去呢群体是会向合作的方向进化,还是向不合作的方向进化如果大家开始都不合作,能否在进化过程中产生合作为了回答这些疑问,艾氏用生态学的原理来分析合作的进化过程。
假设对策者所组成的策略群体是一代一代进化下去的,进化的规则包括:一,试错。人们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。第二,遗传。一个人如果合作性好,他的后代的合作基因就多。第三,学习。比赛过程就是对策者相互学习的过程,”一报还一报”的策略好,有的人就愿意学。按这样的思路,艾氏设计了一个实验,假设63个对策者中,谁在第一轮中的得分高,他
12
在第二轮的群体中所占比例就越高,而且是他的得分的正函数。这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。
实验结果很有趣。”一报还一报”原来在群体中占1/63,经过1000代的进化,结构稳
定下来时,它占了24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,即原来前15名中唯一的那个”不善良的”哈灵顿程序,它的对策方案是,首先合作,当发现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对方仍然合作,它就继续背叛。这个程序一开始发展很快,但等到除了”一报还一报”之外的其它程序开始消失时,它就开始下降了。因此,以合作系数来测量,群体是越来越合作的。
进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。”一报还一报”在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。它赖以生存的基础是很牢固的,因为它让对方得到了高分。哈灵顿程序就不是这样,它得到高分时,对方必然得到低分。它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败者被淘汰之后,这个好占别人便宜的成功者也要被淘汰。
那么,在一个极端自私者所组成的不合作者的群体中,”一报还一报”能否生存呢艾氏发现,在得分矩阵和未来的折现系数一定的情况下,可以算出,只要群体的 5%或更多成员是”一报还一报”的,这些合作者就能生存,而且,只要他们的得分超过群体的总平均分,这个合作的群体就会越来越大,最后蔓延到整个群体。反之,无论不合作者在一个合作者占多数的群体中有多大比例,不合作者都是不可能自下而上的。这就说明,社会向合作进化的棘轮是不可逆转的,群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞
13
人心的结论,突破了”囚犯困境”的研究困境。
在研究中发现,合作的必要条件是:第一、关系要持续,一次性的或有限次的博弈中,对策者是没有合作动机的;第二、对对方的行为要做出回报,一个永远合作的对策者是不会有人跟他合作的。
那么,如何提高合作性呢首先,要建立持久的关系,即使是爱情也需要建立婚姻契约以维持双方的合作。(火车站的小贩为什么要骗人为什么工作中要形成小组制度换防的时候一方总是要小小地进攻一下的,在中越前线就是这样)第二、要增强识别对方行动的能力,如果不清楚对方是合作还是不合作,就没法回报他了。第三、要维持声誉,说要报复就一定要做到,人家才知道你是不好欺负的,才不敢不与你合作。第四、能够分步完成的对局不要一次完成,以维持长久关系,比如,贸易、谈判都要分步进行,以促使对方采取合作态度。第五、不要嫉妒人家的成功,”一报还一报”正是这样的典范。第六、不要首先背叛,以免担上罪魁祸首的道德压力。第七、不仅对背叛要回报,对合作也要作出回报。第八、不要耍小聪明,占人家便宜。
(打桥牌和打麻将的区别)
艾克斯罗德在一书结尾提出几个结论。第一、友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,也有可能合作。比如,第一次世界大战期间,德英两军在战壕战中遇上了三个月的雨季,双方在这三个月中达成了默契,互相不攻击对方的粮车给养,到大反攻时再你死我活地打。这个例子说明,友谊不是合作的前提。第二、预见性也不是合作的前提,艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。但是,当有预见性的人类了解了合
14
因篇幅问题不能全部显示,请点此查看更多更全内容