饭饭TXT > 学习管理 > 《博弈游戏（出书版）》作者：白波【完结】 > 博弈游戏.txt

　第3章打破"囚徒困境"

作者：白波当前章节：15258 字更新时间：2026-6-22 22:08

在"囚徒困境"中表现最好的策略直接取决于对方采用的策略，特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大，即未来是重要的。

囚犯的救赎

为了验证面对"囚徒困境"时人们可选择的策略以及这些策略的有效程度，美国的学者组织了一次以此为主题的计算机竞赛。竞赛要求参加者根据这一困境设计程序，并将程序输入计算机，通过各种程序的相互对局的最后得分评判优劣。

竞赛的游戏方法是：游戏双方都在不知对方将如何选择的情况下，选择合作或背叛。这些选择放在一起就产生了四个可能的结果，即：合作，合作；合作，背叛；背叛，合作；背叛，背叛。在这个游戏中，如果双方选择合作，双方都能得到较好的结果R，即"对双方合作的奖励"。在这个例子中R为3分，3也可以代表参赛者得到的奖金数。如果一方合作而另一方背叛，那么，背叛者得到"对背叛的诱惑"T＝5。而合作者则得到"给笨蛋的报酬"S＝0。如果双方都背叛那么双方都得到P＝1，即"对双方背叛的惩罚"。

参赛者提出了各种程序，但是大致可分为"善良的"、"邪恶的"和"随意的"三类，竞赛的结果也许有些出人意料："善良"即"以合作为主"的策略大获全胜，而"邪恶"即"以占便宜为主"的策略成绩不佳。

现在考虑一个双方对局的例子。一个对策者采用的策略是每一步都背叛，即"总是背叛"，另一个对策者采用的策略是"一报还一报"，即在第一步合作，然后就采用对方上一步的选择。"一报还一报"意味着在对方每一次背叛之后就背叛一次。当对方采用"一报还一报"时，采用"总是背叛"的对策者，将在第一局得到收益，在而后的对局中都得到相应的回击。这样，这个背叛者只是在第一局得到5分，而在以后的每局都只能得到1分，最终他可能会"战胜"对手，但由于总分仍然很低，而被淘汰出局。

你可能忍不住要问："什么是最好的策略？"换句话说，什么策略能使对策者得到可能的最高分？这个问题问得很好。但是就像以后要说明的一样，独立于对方所用策略之外的最好决策规则是不存在的。从这个意义上说，"囚徒困境"完全不同于一般游戏，如国际象棋。一个象棋大师可以有把握地假定对手将走让他最头疼的一步，这种假定是这类游戏的基础。然而在这里，游戏者的利益并不是完全冲突的。双方可以通过合作而得到"对合作的奖励"R，也可以通过背叛而得到"对背叛的惩罚"P。如果你假定对方总是走你最担忧的一步，那么，你就会认为其他人总是不合作，这就会使你也不合作，最后招来无休止的惩罚。所以与下棋不同，在"囚徒困境"中假定对方一心要赢你是不可靠的。

事实上，在"囚徒困境"中表现最好的策略直接取决于对方采用的策略，特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大，即未来是重要的。总的来说，如果你认为今后将难以与对方相遇，如果你不太关心自己未来的利益，那么，你现在最好是背叛，而不用担心未来的后果。

这样，我们得到了第一个正式的结论，但却是一个令人伤心的结论，即：如果未来是重要的，就不存在最优策略。

启示：好莱坞大片《肖申克的救赎》是一部很好看的电影，主要内容是一个被冤屈的囚犯如何凭着坚定的信念和聪明才智逃出牢房。我们的"囚犯"也可以通过好的策略合作，摆脱"困境"的诅咒。

"一报还一报"的伟大胜利

区分善良规则好坏的一个特征是，看它们如何迅速地和可靠地对来自对方的挑战作出反应。一个规则可以被称为"报复性的"，如果它在对方的背叛之后立即以背叛报复。除非一个策略能迅速反应来自对方的挑战，否则，对方将简单地从这样一个好说话的策略身上获得越来越多的好处。

在比赛中，有好几个规则故意使用若干次背叛，试试看它们能否讨到便宜。因此，很大程度上决定善良规则的最后名次的是它们能否很好地应付这些挑战。

对付这类挑战性规则的最好办法是时刻准备报复来自对方"无缘无故"的背叛。因此，善良能得到好处，报复也能得到好处。"一报还一报"综合了这些优点，它是善良的、宽容的和具报复性的。它从不首先背叛，但是不管过去相处的关系如何好，它总能被一个背叛所激怒，而迅速作出反应。

生态分析的结果说明了"一报还一报"的又一个胜利。在最初的竞赛中"一报还一报"领先一点点，而且在整个生态模拟过程中一直保持领先。到了第1000代，它是最成功的规则，并且比任何一个其他规则都增长得快。

"一报还一报"的所有记录是令人难忘的。概括地说，"一报还一报"是62个参赛者中平均得分最高的规则。在竞赛的生态模拟中它一直保持领先。加上它在实验室的对策实验中的良好表现，"一报还一报"显然是一个非常成功的策略。

"一报还一报"的成功可以说明的是它是一个很具适应性的规则：即它在很大范围的环境中表现极佳。它的成功部分是由于其他规则预料到它的存在并且被设计得与它很好相处。要和"一报还一报"很好相处就要和它合作，这反过来就帮助了"一报还一报"。即使那些被设计成伺机占便宜而不被惩罚的规则，也很快向"一报还一报"道歉。任何想占"一报还一报"便宜的规则最终将伤害自己。"一报还一报"从自己的不可欺负性得到好处，是因为以下三个条件得到了满足：1.遇到"一报还一报"的可能性是显著的；2.一旦相遇，"一报还一报"很容易被识别出来；3.一旦被识别出来，其不可欺负性就显示出来。因此，"一报还一报"从它自己的清晰性中得到好处。

另一方面，"一报还一报"放弃了占他人便宜的可能性。这种机会有时是很有利可图的，但是试图占便宜而引来的问题也多种多样。首先，如果一个规则用背叛试探是否可以占便宜，它就得冒被那些可激怒的规则报复的风险。第二，双方的反击一旦开始，就很难自己解脱。

"一报还一报"的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦，它的报复性使对方试着背叛一次后就不敢再背叛，它的宽容性有助于重新恢复合作。它的清晰性使它容易被对方理解，从而引出长期的合作。

启示：一报还一报能够赢得竞赛不是靠打击对方，而是靠从对方引出使双方都有好处的行为。

你不必每次都赢

虽然预见对于合作的进化不是必要的，但它却对我们很有帮助。因此在这里将分别对参与者和改革者提供建议。

下面为那些处于"囚徒困境"的人提供建议。从个体的眼光看，目标是在与对手的一系列对局中尽可能地得高分。由于这个游戏是"囚徒困境"，参与者会受到背叛的短期诱惑，但是通过与对方建立双方合作的模式可以得到更多的长期好处。对计算机竞赛的分析和理论研究的结果，为我们提供了一些有用的信息，即在不同的条件下什么样的策略会起作用和为什么这些策略能表现得好。这一章就是把这些发现转化成对参与者的建议。

在持续的"重复囚徒困境"中应如何表现，下面是四个简单的建议：

1.不要嫉妒

人们习惯于考虑零和对局，在这种情况下，一个人赢，另一个就输。一个很好的例子就是下棋比赛。为了能赢，一个参赛者必须在大部分时间里比对手做得更好。白棋赢黑棋就输。

然而生活中的大多数情况都是非零和的。双方可以都做得很好，也可以都做得很差。双方的合作是可能的，但并不是总能实现。这就是为什么"囚徒困境"是各种各样的日常情形的有用模型。

人们倾向于采用相对的标准，这个标准经常把对方的成功与自己的成功对立起来。这种标准导致了嫉妒，嫉妒导致企图抵消对方已经得到的优势。在"囚徒困境"的形式下，抵消对方优势只能通过背叛来实现。但是背叛导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭。

要求自己比对方做得好不是一个很好的标准，除非你的目的是消灭对方。在大多数情况下，这个目的是不可能实现的。

"一报还一报"由于与其他多种多样策略相处得很好而赢得了竞赛。平均来说，它比竞赛中的其他任何策略都做得更好。但是"一报还一报"从来没有一次在游戏中比对方得更多的分！事实上，它不可能比对方多得分。它总是让对方先背叛，并且它的背叛次数决不比对方背叛的多。因此"一报还一报"不是得到和对方一样多的分，就是比对方略少。"一报还一报"赢得竞赛不是靠打击对方，而是靠从对方引出使双方有好处的行为。"一报还一报"如此坚持引出双方有利的结果，从而使它获得比其他任何策略更高的总分。

因此在一个非零和的世界里，你没有必要非得比对方做得更好。特别当你要和许多不同的对手打交道时更是这样。只要你自己能做得好就没有理由去嫉妒对方的成功。因为在长时间的"重复囚徒困境"中，其他人的成功是你自己成功的前提。

在生意场中也是这样，一个从供应商那儿买来东西的公司期望供方和买方都有好处的成功的关系。妒忌供方的利润是完全没有意义的。任何通过不合作行为(如不按时付账)来减少这种利润的企图，都将激起供方的报复行动，报复行为可以采用多种形式，经常以不明显惩罚形式，诸如拖延发货，较低的质量保证，不愿意打折扣，或者不交换市场条件变化的信息。这种报复使得嫉妒代价很大。买者不要担心卖方的相对的利润，而可以考虑是否有其他更好的购买策略。

2.不要首先背叛

竞赛和理论分析的结果都表明，只要对方合作你也合作就会有好处。竞赛结果是很令人吃惊的。决定一个规则表现如何的惟一最好的特征是这个规则是否善良。也就是说这个规则是否不首先背叛。在第一轮竞赛中，前8名规则中都是善良的，在后7名规则中没有一个是善良的。在第二轮竞赛中，前15名规则中只有一个是非善良的(它名列第8)，而后15名规则中只有一个是善良的。

有些不善良的规则，使用相当复杂的方法来试探它是否能逃脱惩罚。例如尝试在第一步背叛，如果对方报复的话，它就马上撤回。在另一个例子中，它在背叛前等待十几步，看看对方是否能被哄骗和被偶尔占便宜。如果是的话，就更频繁地增加背叛，直到对方反击而被迫撤回。但是这些尝试道德背叛的策略都表现得不怎么好。因为存在许多由于愿意报复而不被占便宜的策略，所以导致冲突的代价有时是很高的。

甚至许多专家也没有意识到善良性对避免不必要的冲突的价值。在第一轮竞赛中，由对策论专家送来的规则中几乎有一半是不善良的。参考了第一轮的明显结果，第二轮比赛中大约有1／3规则用不善良的策略，但是，它们都没有占到便宜。

前面的竞赛结果提供了另一个方式来说明为什么善良的规则能表现得如此好，由于善良的规则相互之间相处得很好，因而善良规则的群体是很难被侵入的。而且能够阻止单个变异个体侵入的善良规则的群体也能阻止这个变异规则的任何小群体的侵入。

当然，你可以尝试更保险的方式，即先背叛直到对方合作，才开始合作。然而，竞赛的结果表明，这实际上是一个很有风险的策略，因为你的最初的背叛就可能引起对方的报复，并使你处于要么被占便宜要么双方背叛的两难境地。如果你惩罚对方的报复，这种反应就会一直延续下去。如果你宽恕了对方，你就得冒被欺负的风险。即使你能避免这些长远问题，对你的最初背叛的当下报复会使你希望自己从一开始就应该是善良的。

对竞赛的生态分析揭示了另一个为什么首先背叛是很冒险的道理。第二轮竞赛中前15名规则中惟一的非善良策略是名列第8的"哈林顿"。因为它与竞赛中的名次较低的规则相遇的得分都很高。在假想的未来生态竞赛中，名次较低的规则在群体中的比例越来越小，最终能被这个最初挺成功的非善良策略占便宜的策略就越来越少，接着它自己也消亡了。因此，只会占"傻瓜"的便宜是没有用的，它只不过是一个自我毁灭的过程。这个教训说明，虽然不善良在最初看来似乎是很有希望的，但长期下去它将毁坏使自己成功所必需的环境。

3.对合作与背叛都要给以回报

"一报还一报"超常的成功给出了一个简单的但又是很有力量的建议：要回报。在第一步合作之后，"一报还一报"只是简单地回报对方在上一步的所为。这个简单的规则惊人地有效。它赢得了第一轮"囚徒困境"计算机竞赛，并取得比任何其他由对策论专家们送来的规则更高的平均得分。每一个第二轮竞赛的参加者知道这个结果，但"一报还一报"又赢了第二轮竞赛。这个胜利显然是令人惊讶的。因为每一个参赛者都是在考虑了"一报还一报"在第一轮竞赛中的胜利结果之后，才提交参赛规则的。显然人们都希望能干得更好，但是他们错了。

"一报还一报"不仅赢得竞赛本身，而且在假设的继续比赛中比其他任何规则表现得都好。这表明"一报还一报"不仅与最初的各种规则相处得很好，而且能与那些可能在未来群体中占较大份额的成功的规则相处得很好，它不毁坏自己成功的基础，相反它在与其他成功的规则相互交往中繁荣起来。

"一报还一报"所体现的回报在理论上也是很重要的。当未来相对于现在是足够重要的时候，"一报还一报"是稳定的。这就意味着，如果每个人都使用"一报还一报"策略，那么对一个特定的个体的最好建议就是也采用"一报还一报"策略。或者这么说，如果你能肯定对方是采用"一报还一报"，并且这种交道将持续足够长，那么，你最好也采用相同的策略。

事实上，"一报还一报"很善于区分哪些规则会回报它的最初合作，哪些不会。这就使得它能够以小群体形式侵入"小人"的世界。并且，它回报背叛也回报合作。这使得它是可激怒的。而善良的策略要阻止被侵入，就必须是可激怒的。

在反应对方的背叛时，"一报还一报"保持了惩罚和宽恕的平衡。"一报还一报"总是在对方每次背叛之后只背叛一次。那么，是否总是严格的一对一回报才是最有效的平衡？这就很难说了，但有一点是清楚的，即用多于一次背叛来回报对方的背叛将有可能使冲突升级。另一方面，少于一对一的回报将有被占便宜的危险。

以上分析的启示是，最优的宽恕水平与环境有关。特别是如果主要的危险是来自那些善于占"好说话"的规则的便宜的策略，那么，太多的宽恕就要付出代价。对一个给定的环境，准确的平衡是很难确定的，但是，竞赛的结果证明对背叛类似一对一的反应可能在大多数情况下都是相当有效的。因此，对参与者的一个很好的建议是对合作和背叛都要给予回报。

4.不要耍小聪明

竞赛结果表明在"囚徒困境"的情况下人们容易耍小聪明，然而复杂的规则并不比简单的规则做得更好。事实上，这些规则的共同问题是，使用一些复杂的方法来推断对方。而这些推断常常是错误的。一部分问题是对方经常用试探性的背叛来表明它不会被引诱而合作，但是问题的关键是这些规则没有考虑到它自己的行为会引起对方的变化。对方对你的行为是有反应的，对方将把你的行为看作你是否回报合作的信号。因此，你自己的行为将会反射到你的身上。

试图使得分最大化的规则把对方看作环境的一个不变的部分而忽略了相互的作用，不管他们在有限的假设下所做的计算是多么的聪明。如果你离开双方相互适应的简单原则，那么你的聪明是不会有好结果的。这是一条艰难的路，显然在两次竞赛中没有一个复杂的规则精于此道。

另一个过分聪明的方式是使用"永久报复"的策略。这个策略只要对方合作它就合作，但是一旦对方背叛一次，它就决不合作。由于这个策略是善良的，它与其他善良的策略相处得很好。并且它与那些完全随机的规则相遇时干得也不错。但它与许多其他规则相遇就干得很差，因为对于那些偶尔背叛但准备一旦受惩罚就撤回的规则来说，它太快放弃合作了。"永久报复"看起来似乎很聪明，因为它为避免背叛提供了最大的激励，但是它为了自己的利益显得太严厉了。

参加竞赛的规则中还有第三种太聪明的形式是，它们采用的策略是如此复杂，以至于其他策略不能把它们与纯粹的随机选择区分开来。用另一方式来说，就是太多的复杂性就显得是完全杂乱无章。如果你采用一个看起来是随机的策略，那么你也就显得对对方不反应，如果你是不反应的，对方就受不到与你合作的激励。因此复杂到不可理解是非常危险的。

当然，在许多人类事务中，一个使用复杂规则的人可以向对方解释每一个选择的理由。然而，问题出现了：对方可能怀疑所提供的这些理由，在这个情况下对方将认为不值得有任何反应，对方会把一个显得不可预测的规则看作不可改造的，结果自然是导致背叛。

"一报还一报"在竞赛中得到巨大成功的原因之一是它具有很大的清晰性，即它非常容易被对方理解。当你使用"一报还一报"策略时，对方有很好的机会去理解你在干什么。你对任何背叛的一对一的反应是一个很容易被意识到的模式。而且你的未来行为是能被预测的。一旦这些情况发生了，对方能容易地发现应付"一报还一报"的最好方式就是与他合作。假设这个游戏有足够的可能继续下去，至少还有下一步相遇。那么当你遇到"一报还一报"策略时只有马上和他合作是最好的，这样你将可以在下一步得到合作。

另外，在零和对策(如下棋)和非零和对策(如"重复囚徒困境")之间有一个重要的不同。在下棋时，让你的对手猜疑你的企图是很有用的，你的对手越是怀疑，他(或她)的策略就越没效果。但是在非零和情况下，如此聪明不总是有好处的。在"重复囚徒困境"中，你要从对方的合作中得到好处。诀窍在于鼓励合作，一个好的方式就是清楚地表明你愿意回报，这就是"一报还一报"之所以如此有效的原因。

启示1：重复囚徒困境的几个建议：

(1)不要嫉妒；

(2)不要首先背叛；

(3)对合作与背叛都要给以回报；

(4)不要耍小聪明。

启示2：联翩而来的好运总是可疑的，只会占"傻瓜"的便宜是没有用的。

启示3：一报还一报从来没有一次在游戏中比对方得到更多的分！

未来影响现在

对未来的预期，是影响我们行为的重要因素。一种是预期收益：我这样做，将来有什么好处；一种是预期风险：这样做可能面临的问题。这些将影响个人的策略，如学生读书，为了将来考上好学校取得文凭，获得更高的地位和收入。如果文凭一钱不值，就会影响学生的热情。也影响与他人、社会的关系。

地摊、车站、旅游点，这些人群流动性大的地方，不但商品和服务质量最差，而且假货横行，因为在商家和顾客之间"没有明天"--一个旅客不大可能因为你的饭菜可口而再次光临，一锤子买卖，不赚白不赚。

在公共汽车上，两个陌生人会为一个坐位争吵，可如果他们认识，就会相互谦让。在相互社会联系紧密的人际关系中，人们普遍比较注意礼节、道德，因为都需要这个环境。

道德、法律、权力利益的划分，都与"还要见面"有关。从消极的层面看，我们互不侵犯，是为了避免没完没了、两败俱伤的循环报应。例子：两个原始人见面，一个拿着兽皮，一个拿着野果，他们都想把对方的东西据为己有。如果他们的见面是偶然的，可能相互抢劫；可是如果他们都生活在附近，考虑到对方家族的报复，抢劫的风险就大了。所以他们不去打对方的主意--所有权就这样产生了。如果他们确实想得到对方的东西，他们可以选择合作--以物易物，交易就这样产生了。

两个相邻的国家，如果相互敌对，是一件非常不幸的事。它们不可能"搬家"，又不可能消灭对方(这是现代国际关系准则所不允许的)，这个死结就可能缠绕它们许多年。遗憾的是，这样关系的邻国还不少，如巴以、印巴、两伊以及伊拉克和科威特。希腊和土耳其也曾经是这样的世仇，现在关系虽已缓和，但是它们之间的不信任感还是长久不能消除。

长期敌对对双方来说，都是损失巨大的。不但随时有爆发战争的危险，经济建设也受到拖累。谁也不可能把钱花在朝不保夕的危险地区，一来风险太大，二来，如果在边界有许多建设，也更容易被对方讹诈--那无异于是把人质交给对方。一个例子就是韩朝关系，韩国比朝鲜更害怕发生战争，因为首都汉城就在对方的炮火射程之内。一个包袱更重的国家，维护和平的代价要比对方更大。

中苏交恶的年代，双方都在边境地区陈兵百万，巨大的军费开支和潜在的战争风险对两国都是重负。现在两国关系改善，互信增加，边境军事力量大大减弱，可以说是一个双赢。从这个意义上说，"面向未来"不仅仅是一句外交辞令。

"笼中猪"博弈

简单的例子如果能够说明方法，能够启迪思维，就有它的价值。今天再讲博弈论著作中常见的另一个简单的例子"笼中猪"博弈。

笼子里面有两只猪，一只比较大，一只比较小。笼子很长，一头有一个按钮，另一头是饲料的出口和食槽。按一下按钮，将有相当于10份的猪食进槽，但是按按钮以后跑到食槽所需要付出的"劳动"，加起来要消耗相当于2份的猪食。问题是按钮和食槽分置笼子的两端，按按钮的猪付出劳动跑到食槽的时候，坐享其成的另一头猪早已吃了不少。如果大猪先到，大猪呼啦啦吃到9份，小猪只能吃到1份；如果同时到达，大猪吃到7份，小猪吃到3份；如果小猪先到，小猪可以吃到4份，而大猪吃到6份。

"笼中猪"博弈的具体情况如下：

如果两只猪同时按钮，同时跑向食槽，大猪吃进7份，得益5份，小猪吃进3份，实得1份；如果大猪按按钮后跑向食槽，这时小猪抢先，吃进4份，实得4份，大猪吃进6份，付出2份，得益4份；如果大猪等待，小猪按按钮，大猪先吃，吃进9份，得益9份，小猪吃进1份，但是付出了2份，实得-1份；如果双方都懒得动，所得都是0。

比较以上数字，我们知道"等待"是小猪的优势策略，"按按钮"是小猪的劣势策略。先把小猪的劣势策略消去。现在来看大猪。由于小猪有"等待"这个优势策略，大猪只剩下了两个选择：等待一份不得；按按钮得到4份。所以"等待"就变成了大猪的劣势策略(注意，是现在才变成劣势策略)。把它也删去，就得到"笼中猪"博弈的结局：小猪只是坐享其成地等待，每次都是大猪去按按钮，小猪先吃，大猪再赶来吃。

"笼中猪"博弈有许多应用，它可以解释为什么占有更多资源者必须承担更多的义务。

启示：这个例子描述了走出囚徒困境的另一个途径：找出一个大慈善家，让它遵守合作协议，并容忍其他人作弊。同样的事情见之于许多联盟。在许多国家，一个大政党和一个或多个小政党必须组成一个联合政府。大政党一般愿意扮演负责合作的一方，委曲求全，确保联盟不会瓦解，而小政党则坚持它们自己的特殊要求，而选择通常可能偏向极端的道路。又如在北约内部，美国承担了防务开支很大比例的份额，大大便宜了西欧和日本。美国经济学家曼库尔·奥尔森将这一现象非常简洁地称为"小国对大国的剥削"。

增大未来的影响

通常人们认为合作是件好事，毕竟双方合作在"囚徒困境"中对双方都有好处。然而如前面说过的，在一些情形中人们要做的却恰恰相反。

只要这种接触不是重复的，合作就非常困难，正是持续的接触，使基于回报的合作的稳定成为可能。促进双方合作可以从三个方面着手：使得未来相对于现在更重要些；改变对策者的四个可能的结果的收益值；教给对策者那些促进合作的准则、事实和技能。

如果未来相对于现在是足够重要的话，双方的合作是稳定的。因为每个对策者可以用隐含的报复来威胁对方，如果相互之间的接触能持续足够长使得这种威胁能够奏效的话。

这个结论强调了促进合作的第一方法的重要性，即增大未来的影响。有两个基本的方法来做到这一点：使相互作用更持久和使相互作用更频繁。

最直接促进合作的方法是使相互作用更持久。例如，婚礼就是一个用来庆祝和促进持续关系的公共行为。相互作用的持久性不仅对相爱的人有用，对敌人也有用。能证明这一点的最令人吃惊的例子就是在第一次世界大战的堑壕战期间发展起来的"你不打我，我也不打你"的系统。堑壕战与众不同的是敌对双方的部队要相互接触很长的时间。在更机动的战争中，一支部队在每次战斗中可能遭遇不同的敌人。因此，你希望对方的个体或小单位将会在以后回报你，而合作是没有好处的。但是在相对固定的战斗中，两支部队之间的接触要持续一个相当长的时间。这种持续的接触，使得基于回报的合作是值得一试的，并且使合作得以建立。

另一个增大未来影响的方法是使接触更加频繁。在下一步接触很快就会发生的情况下，下一步显然比通常更重要。

在商业上，专业化公司趋向于限制在与少数几个公司接触以便使这种接触更加频繁。这是为什么合作在小城镇比在大城市容易出现的一个原因。在某些行业中往往存在着限制竞争的默契，这也是为什么同类行业的公司都试图排斥那些可能扰乱这种默契的新公司。因此，原则总是一样的，经常接触有助于促进稳定的合作。

集中接触是使两个人更经常见面的一个方法。在协商谈判中，另一个使接触更加频繁的方法是把问题分解成若干的部分。例如，可以将军备控制和裁军条约分解成许多阶段，这样就允许双方有更多让步的机遇而不只是一两个让步。这样可以使回报更有效。如果双方都知道对方的一步不合适的策略可以通过下一步的回报来补偿，那么双方对整个过程可以按所期望的进行就更有信心。而且，如果双方对自己识别欺骗的能力缺乏信心，那么，有许多小的步骤比只有少数大的步骤更有助于促进合作。

分解是一个广泛使用的原则。在商业上，商人们喜欢一个大订单分别按每次发货时间付款，而不愿等到最后付总账。使得当前步骤的背叛相对于整个未来的接触过程来说不是那么有诱惑力，这是促进合作的好方法。

启示：两只困倦的刺猬由于寒冷而拥在一起。可因为各自身上都长着刺，于是它们离开了一段距离，但又冷得受不了，于是凑到一起。几经折腾，两只刺猬终于找到一个合适的距离：既能互相获得对方的温暖而又不至于被扎。了解并关心对方，并巧妙地保护自己，会使合作更加长久。

为什么出租比出售好

1987年，纽约市长埃德·科克成功地增加了曼哈顿的持照出租车的数目。此前50年，曼哈顿人口增加了300万，但出租车只多了100辆。出租车短缺的一个迹象是，当时，合法经营一辆出租车的权利(俗称"大奖章")在市场公开标价125000美元。与此同时，出租车按每天两班、每班12小时出租，每班价格约为60美元(每年约45000美元)。

假如市政府拍卖100个新的大奖章，就能轻松地赚到1250万美元。问题是，所有的获得者就会担心，市政府已经发现了一个好得难以置信的发财机会。既然如此，为什么明年不再拍卖100个新的大奖章呢？如果市政府不能承诺限制大奖章的颁发数量，以保证大奖章不会变得一文不值，那么第一个后果就是再也不会有人愿意为大奖章出高价了。

现在科克市长请你做顾问。他想知道怎样才能同时增加出租车的数目和库房收入。他正在寻找办法，使自己作出一个承诺，并以此约束自己(以及以后的政府)不要再源源不断地印制新的许可证，防止旧的大奖章大大贬值。当时，出租车与轿车委员会正左右为难，但谁也不会单单听信一个政客的话。你有什么建议？

诀窍在于出租而非出售大奖章。这么一来，没人要为以后的价值付钱。市长就会有一种限制大奖章出租数量的激励，因为假如他出租太多，总租金就会下降，并且很有可能随着大奖章变得一文不值而一直降到零。

注意，这实际上就是一步一步作出承诺的应用实例。这里的步骤不是大奖章的数目，而是大奖章的有效期。人们愿意在一周或一年之内相信这个市长，而新规定的通过是需要一段时间的。最具风险的是大奖章一年的价值。对市长而言与其将今年的大奖章、明年的大奖章以及未来的大奖章合并为一枚永久性的大奖章，然后再出售，还不如一次只出售一枚大奖章，从而恢复自己的可信度。要做到这一点，一个简单的方法就是出租，而不是出售。

改变收益值

那些碰到"囚徒困境"的人有一个共同的反应，即"应该有一个法律来防止这类事情的发生"。事实上，摆脱"囚徒困境"是政府的一个主要的功能：保证人们无论如何也得做那些对社会有用的事。法律使人们交税，不偷盗，忠实履行与陌生人的合同。这每一件事都可以看作是有许多人参加的大"囚徒困境"。没有人愿意纳税，因为它的好处很难看到而代价是直接的。但是如果每一个人都纳税，大家就能生活得更好，即分享学校、道路和其他公共设施的好处。这就是卢梭所说的政府的作用就是保证每一个公民"被强迫得到自由"。

政府所做的正是改变有效的收益值。如果你逃避交税，你就可能被送进监狱。这种前景使得背叛的选择不那么吸引人了。即使半官方也能通过改变对策者的收益值而实施他们的规矩。例如，在"囚徒困境"的原始故事中，两个同案犯被逮捕并被分别审讯。如果他们同属一个帮派组织，那么他们知道告密是要受到惩罚的。这将降低背叛同伙的收益值，使得他们都不坦白并由于他们双方保持沉默的合作而得到较轻的徒刑。

在收益结构上的大变化能够改变相互作用使得情况不再是一个"囚徒困境"。如果对背叛的惩罚是如此之大以至于不管对方如何选择，从短期来说合作都是最好的选择的话，那么就不再有困境。可是，收益值的改变没有必要如此激烈才能奏效，即使相当小的一点改变就可以有助于回报的合作的稳定，尽管这相互作用的情况仍然是"囚徒困境"。所以，通过改变收益值来促进合作没有必要去消除背叛的短期激励与合作的长期激励之间的紧张关系，而只要使对双方合作的长期激励大于对背叛的短期激励就行。

教育人们相互关心

在社会中，一个有效促进"双赢"的方法是教育人们关心他人的利益。家长和学校花了很大的努力去教育年轻人关心其他人的幸福。用对策论的术语来说，这意味着这些长辈试图使孩子们形成这样的价值观念，即这些新一代的公民的偏好中，不仅有他们自己个人的利益，还至少在某种程度上结合了他人的利益。毫无疑问，在这样一个关心他人的社会里，即使遇到"囚徒困境"，成员之间也容易达成合作。

利他主义就是描述这样一个现象，一个人的利益效用是与另一个人的福利相联系的。因此利他主义是一个人行为的动机。但是必须认识到，有一些看起来是宽宏大量的行为可能有其他各种原因而不是利他主义。

例如，慈善行为往往不是出于对不幸者的关心而是为了它所能带来的社会赞赏。在传统和现代社会中赠送礼物可能是交换过程的一部分。它的动机更多的是使受惠者承担某种义务而不在于改善受惠者的福利。

从生物进化的遗传学观点来看，利他主义能在亲属之间维持。冒着生命危险去抢救下一代的母亲能够增加她的基因拷贝的生存机会。这是遗传亲缘理论的基础。

人们之间的利他主义也可以通过社会化来维持。但是，这里有一个严重的问题。一个自私者可以从其他人的利他行为中得到好处而不给以任何回报。

我们都遇见过一些令人讨厌的人，他期望其他人宽宏大量，只考虑自己的需要而不考虑别人的利益。必须把这种人与关心他人的人区别对待，免得被他占便宜。这个道理告诉我们，利他主义的代价可以通过首先对每一个人采用利他行为，然后只对那些有相同的感情的人采取利他行为来控制。但是这很快就使你回到作为合作基础的回报上来。

教育人们要回报

"一报还一报"可能是个反击自私者占我们便宜的有效的策略。但是，它是一个人或国家要遵循的道德策略吗？当然，答案取决于什么是一个人的道德标准。也许最广泛接受的道德标准是这一金科玉律：己所不欲，勿施于人。在"囚徒困境"的情况下，这一金科玉律似乎意味着你应该总是合作，因为合作是你希望从对方得到的。

这个观点的问题在于：人家打你一巴掌，你还把另一边脸转过去，等于鼓励对方再占你便宜。无条件的合作不仅伤害你自己，而且伤害了这个成功的剥削者接着要遇到的无辜者。无条件合作将会宠坏对方，并为社会留下了改造被宠坏者的负担。这说明回报是比无条件合作更好的道德基础。

然而，基于回报的策略似乎没有达到道德的高度，至少按照我们的日常的直觉是没有。回报当然不是道德的一个好的基础，但它不只是自私自利者的道德。它确实不仅帮助自己，而且帮助了别人。它是通过使剥削性策略难以生存来帮助别人。一个基于回报的策略能让对方从双方合作中得到奖励，这也是当双方最好时它自己所能得到的同样报酬。

坚持公平是许多基于回报的规则的基本特征，这从"一报还一报"在"囚徒困境"竞赛中的表现可以清楚地看到。"一报还一报"赢得两轮的竞赛，但是在任何一局中它从来没有得到比对方多的分数它不可能在一局中比对方得分更多，因为它总是让对方先背叛，并且它从来不会比对方的背叛次数多。它的胜利，不是靠比对方做得好，而是靠引导出对方的合作。用这个方式，"一报还一报"靠促进双方的利益而不是靠剥削对方的弱点来取得胜利。一个有道德的人也就不过如此了。

使"一报还一报"有点令人不舒服的是它坚持"以牙还牙"。这确实只是大致公平的。而且，它的麻烦在于一旦结下仇恨，它就会无休止地继续下去。确实，许多仇恨似乎都有这种性质。例如，世界上很多宗族观念和民族矛盾强烈的地区，家族之间的仇恨有时持续了几十年。一个伤害由另一个伤害来偿还，并且每一次报复都引起了一轮新的报复。这种伤害来回反射直到最初的暴行消失在遥远的过去中。这是"一报还一报"的严重的问题。

一个更好的策略可能是一报还9／10报。这样既能够减弱冲突的振荡，又能提供一个激励使对方不敢尝试无缘无故的背叛。它是一个基于回报的但又比"一报还一报"多一点宽容的策略。它也是大致公平的。但是在一个自私自利的没有集权的世界里，它确实不仅促进它自己的福利，而且增加其他人的福利。

自我控制的特性给你一个额外的激励去把它传授给别人，即使这些人决不会与你打交道。自然，你想把回报教给那些你将打交道的人以便你能建立一个双方都有好处的关系。但你也可以从那些你决不会与他们相遇的采用回报策略的人那里得到你个人的好处，即其他人的回报惩罚了那些试图占人家便宜的人，这有助于控制整个社会。并且，它减少了你将来必须对付的不合作的人的数目。

设置

手机

书架

书页

第3章 打破"囚徒困境"

　第3章打破"囚徒困境"