在第八章中,我们看到厂商无论是进行价格决策还是产量决策,都必须考虑竞争对手的反应。这与此前所考察的厂商行为有着明显的不同。当在决策过程中必须考虑其行为对竞争对手的影响以及竞争对手的反应时,我们实际上就进入了博弈论分析的领域。
博弈论就是对上述互动情形的研究。在这些情形中,有多个行为主体参与行动,他们的活动共同决定每个参与人所获得的奖励或惩罚。顾名思义,博弈论的一个直接的也是最初的应用就是现实中诸如打扑克和下棋之类的游戏。但博弈论从一开始就广泛涉及到人类行为中有关决策的相互作用或互动决策的各个方面,包括战争和政治活动。近年来,博弈论本身已得到丰富和发展。如今,博弈论已是厂商经济决策分析的必备工具,这也是对上一章寡头行为分析的继续和深入。
一、博弈论的基本知识
1. 博弈的含义与基本要素
所谓博弈指的是一种决策,即每一行为主体的利益不仅依赖它自己的行动选择,而且有赖于别人的行动选择,以致它所采取的最好行动有赖于其竞争对手将 选择什么行动。博弈论所研究的就是两个以上行为主体的互动决策及策略均衡。 博弈论的基本要素包括:
A.局中人(Player)
博弈中的每个决策者被称为局中人(也可称作选手和参与者),在具体的经济模型中,它们可以是厂商,也以能是厂商消费者或任何契约关系中的人,根据经济学的理性假定,局中人同样是以利益最大化为目标。
B.支付(Payoff Structure)
支付是指博弈结束时局中人得到的利益。支付有时以局中人得到的效用来表示,有时以局中人得到货币报酬来表示。局中人的利益最大化也就是指支付或报酬最大化。
C.策略(Strategies)
策略(也称作战略)是局中人为实现其目标而采取的一系列行动或行动计划,它规定在何种情况下采取何种行动。
D.策略均衡
经济学中,均衡一般指某种稳定的状态。而博弈论中的均衡是策略均衡,它是指由各个局中人所使用的策略构成的策略组合处于一种稳定状态,在这一状态下,各个局中人都没有动机来改变自己所选择的策略。这样,各人的策略都已给定,不再发生变化,博弈的结果必将确定。从而,每一个局中人从中得到的支付也就确定了。每个局中人的最优决策也就可以确定了。可见,要解一个博弈问题,首先需确定博弈的策略均衡。
研究博弈的最终结局,这里引入占优策略均衡和纳什均衡两个概念。
占优策略均衡指无论其他参与者采取什么策略,其参与者的惟一的最优策略就是他的占优策略。也就是说,如果某一个参与者具有占优策略,那么,无论其他参与者选择什么策略,该参与者确信自己所选择的惟一策略都是最优的。博弈均衡是指博弈中的所有参与者都不想改变自己的策略的这样一种状态。如果所有参与者选择的都是自己的占优战略,该博弈均衡又被称为占优战略均衡。即:由博弈中的所有参与者的占优策略组合所构成的均衡就是占优策略均衡。
然而在有的博弈均衡中,某参与者并不存在既定的占优策略,他的占优策略随着其他参与者的策略的变化而变化。在一个均衡里,如果其他参与者不改变策略,任何一个参与者都不会改变自己的策略,则为纳什均衡。所谓纳什均衡是指这样一组策略组合:第一,在该策略组合中,每个局中人的策略都是给定其他局中人的策略情况下的最佳反应。有一个局中人的策略发生变化,原来的策略组合就不再是纳什均衡。第二,该策略具有自我实施的功能。在纳什均衡下,没有一个局中人可以通过单方面改变自己的策略而提高自己的支付。也就是说,没有人愿意偏离均衡。这一解概念是由美国数学家约翰•纳什提出的,故称为纳什均衡。
由此可见,占优策略均衡是比纳什均衡等强的一个博弈均衡概念。占优策略均衡要求任何一个参与者对于其他参与者的任何策略选择来说,其最优策略都是惟一的。而纳什均衡只要求任何一个参与者在其他参与者的策略选择给定的已经下,其选择的策略是最优的。所以占优战略一定是纳什均衡,而纳什均衡不一定就是占优策略均衡。
二、博弈的分类
经济学家从不同角度对博弈进行了分类。
A.双人博弈和n人博弈
根据局中人的数量,博弈可以划分为双人博弈和n人博弈。(如图8--12所描述的就是典型的双人博弈。)
B.静态博弈和动态博弈
从局中人是否同时行动的角度,博弈又可以划分为静态博弈和动态博弈。所谓静态博弈,是指局中人同时选择策略或非同时选择策略但不知道对手采取的具体行动,并且这种选择是一次性的,也就是说同时做出选择后博弈就出结果。动态博弈,是指局中人行动有先后顺序的博弈,后行动者能观察到先行动者的行动。典型的动态博弈如 “进入博弈”,市场中存在一个在位者厂商I以及一个潜在进入的厂商E。厂商E首先决定是否进入市场,然后厂商I决定是否发动价格战,最后厂商E再次行动,决定是否迎战。日常生活中动态博弈比比皆是,比如购物中的砍价过程就是一个典型的动态博弈。
C.零和博弈与非零博弈
所谓零和博弈,是指博弈双方的支付结果加起来为零。这意味着双方的利益在博弈中是相互冲突的。从支付结果看,除了零和博弈外,还有正和博弈,即双方的支付结果加起来为一个正常的数。这意味着双方的利益冲突不再是那么激烈,有可能出现所谓双赢或共赢局面。至于负和博弈,如果假定局中人都是理性的,理论上没有人会参与这种博弈,尽管现实中不乏损人不利己的事。
D.合作博弈与非合作博弈
互动的情况既可以在单个的个体之间开展,也可以是在团体之间展开,这样,从参与主体角度,我们可以把博弈划分为合作博弈和非合作博弈。具体来说,在非合作博弈中,分析的对象是个体参加者,考察的是单个的参与人在具体的博弈规则以及一定的信息条件约束下,面对其他人可能的反应将如何行动。在非合作博弈中,局中人之间通常无法达成有约束力的协议进行合作,以获得合作收益。非合作博弈强调的是个人理性、个人最优策略。但结果可能有效率,也可能无效率。而在合作博弈分析中,分析的对象经常是一个团体,用博弈论的术语称之为“联盟”。该联盟是由参与博弈的若干局中人通过达成有约束力的协议形成。合作博弈通常并不涉及具体的博弈规则,而集中于不同的人结盟将得到什么。合作博弈强调的是团体理性。
在博弈论的分析史上,对于合作博弈的分析一度是人们研究的重点。在纳什的研究之后,人们认识到非合作博弈分析对于揭示现实中的经济现象有更强大的作用。在众多学者的努力下,非合作博弈分析已经成为博弈论研究的主流。本章将主要介绍非合作博弈分析的基本概念和分析方法。
二、描述博弈的基本形式
常以支付矩阵的直观形式表述博弈,也称为标准型。
我们试通过一个博弈论中的经典例子——囚徒困境来说明标准型博弈形式。
囚徒困境是一个双人博弈,描述的是这样一种情况:两个人因涉嫌犯罪而被捕,但警察没有足够的证据指控他们确实犯了罪,除非他们两个人中至少有一个坦白交代。他们被隔离审查并被告知:如果两人都不坦白,因证据不足,每人都将坐1个月的牢;如果两人都坦白,每人都将坐6个月的牢;如果只有一个人坦白,那么坦白者将立即释放,不坦白者将坐9个月的牢。图7--21列出了这个博弈的支付矩阵。这里我们用坐牢时间的长短表示局中人的支付。
在这个博弈中,对囚徒1来说,如果对方选择坦白,那么他也将坦白,两个人都坐6个月牢(因为如果他不坦白的话,等待他的将是9个月的刑期);如果对方选择不坦白,他也会坦白,这样他会立即释放,而对方将坐9个月的牢。因此,无论对方是否坦白,他都会选择坦白。以囚徒2来说,情况也是一样。这里,“坦白”就是两个囚徒的占优策略。
囚徒2
不坦白 坦 白
-1,1 -9,0
0,-9 -6,-6
图7--21 囚徒博弈
由于理性的局中人不会选择下策,因此,在上述囚徒困境中,如果两个囚徒都是理性的,他们都将选择坦白。这样,博弈的结果将是(坦白,坦白),这是一个占优策略均衡。
在囚徒博弈中,(坦白,坦白)这一策略组合构成一个占优策略均衡。但是,这一均衡给双方带来的支付低于策略组合(不坦白,不坦白)带来的支付。这一结果被称为是囚徒困境。囚徒困境带给我们的启发是,个人的理性选择有时不一定是集体的理性选择。换言之,个人的理性有时将导致集体的无理性。现实生活中有很多囚徒困境的例子,如国家间军备竞赛、厂商间的价格战、公共物品的搭便车问题等。
3.重复博弈
重复博弈是动态博弈的一种特殊情况。显然在一次性博弈的情况下,任何欺骗行为和违约行为都不会遭到报复,参与者的不合作解是难以避免的。但在重复博弈中,情况就会得到改变。
先看无限期重复博弈,在无限期重复博弈中,对于任何一个参与者的欺骗和违约行为,其他参与者总会有机会给予报复,如不再与其合作。这样一来,违约或欺骗方会遭受长期的惨重损失,因此每个参与者都不会采取违约或欺骗的行为,囚犯困境合作的均衡解是存在的。
如果是有限期的重复博弈,情况就有所不同了。用逆推法来分析博弈过程,可以表明,参与者若明确合作到了最后一期,以后不会再有重复博弈,那么,最后一期的博弈和一次性的博弈就没有区别,参与者的欺骗和违约行为是不可能被报复的,于是最后一期单个参与者的占优策略就是不合作的欺骗或违约。逆推到前一期,每个参与者都推知以后将不合作,所以也不会合作。如此等等,在有限期重复博弈中,囚犯困境博弈的纳什均衡是参与者的不合作。
其实,无限期重复博弈的主要特征是每一个参与者都不知道哪一期是末期,因而,每一个参与者在每一期都认定下一期还要继续相互合作,这就和无限期重复博弈没有什么区别。所以在没有确定终止期的有限期重复博弈的模型中,纳什均衡的合作解是可以存在的。