第32章 “囚徒困境”的思考

在博弈论中，有一个流传颇为广泛的故事，叫做“囚徒困境”。

话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人A和B，并从他们的住处搜出被害人家中丢失的财物。但是，他们都矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离审讯。

这个时候，聪明的警官找他们谈话，分别告诉他们说：“你们的偷盗罪确凿，所以可以判你们2年刑期。但是，我可以和你做个交易。如果你招了，他不招，那么你会作为证人无罪释放，他将被判10年徒刑；如果你招了，他也招了，你们都将被判5年有期徒刑；如果他招了，你不招，他无罪释放，你被判无期徒刑，终身囚禁；如果你们都不招，各判2年。”

一般读者可能会误认为，既然两个囚犯最好的结果是都不招供，两人都只被判2年，那么，两个囚犯都选择不招供就是这个博弈的最终结果。

然而，人算不如天算，“囚徒困境”之所以称为“困境”正是因为这个博弈的最终结局恰恰是最坏的结果，即两个囚犯统统招供，结果都被判有期徒刑5年。

反过来说，这也是警官的聪明之处。警官采取的游戏规则必然会让两名囚犯坦白罪行，认罪服法。对一个博弈来说，游戏规则非常的重要，适宜的规则才能够达到目的。在我们的日常生活中莫不如此，规则制定者往往利用条件制定出有利于自身的规章制度。

读到这里，很多读者不禁会问，为什么两个人都选择了“招”，傻到接受这种最坏的结果呢？

在解释这个问题之前，需要首先说明一下，囚徒困境和其他的博弈一样，都需要有两个前提假设：囚徒A和B两人都是自利理性的个人，即只要给出两种可选的策略，每一方将总是选择其中对他更有利的那种策略；两人无法沟通，要在不知道对方所选结果的情况下，独自进行策略选择。

囚犯“思想搏斗过程”大致如下，囚犯A的内心活动是这样：假如他招了，我不招，我就要将牢底坐穿，招了最坏坐10年，还是招了合算；假如他不招，我也不招，只坐2年的牢（因无法串供，风险太大）；如果我招，他不招，马上被释放，也是招了合算。

因此，无论囚犯B是坦白还是沉默，囚犯A采取坦白的策略对自己更为有利。

同样，以上推理也适用于囚犯B。结果两个囚徒都坦白了，都被判刑5年。

囚徒困境之所以被称为“困境”，正是在于：如果A、B二人都保持沉默，则都只被判刑2年，显然比两人都坦白的结果要好。

两名囚犯都作出招供的选择，这对他们个人来说都是最佳的，即最符合他们个体理性的选择。按照博弈论的说法，这是唯一的纳什均衡点。

除了这个均衡点，A与B的任何一人单方面改变选择，他只会得到更加不经济的结果。而在其他的结果中，比如两人都不坦白的情况下，都有一人可以通过单方面改变选择，来减少自己的刑期。可是两人经过一番理性计算后，却选择了一个使自己陷入不利的结局。

其实“囚徒困境”不允许囚犯A和B进行沟通的假设，与实际生活中大部分情况的现实是有差异的。比如，在爱情博弈中，很多恋人会经常花前月下、彻夜厮守；在企业的价格战中，企业之间也会多有沟通，甚至结成价格联盟；即使是20世纪下半世纪的美苏军备竞赛中，两个超级大国也会经常进行外交交谈，及时交换信息。

因此不妨将条件放宽，允许囚犯A和B在审讯室里在一起呆上10分钟，给予他们充分的串供的机会。

很明显，双方交流的主旨就是建立攻守同盟，克服自利心理，甚至可能订立一个口头协议，要求双方都不去坦白。然后，双方再单独被提审。

我们不妨设想囚犯A的心理活动。他一定会认为，如果囚犯B遵守约定的话，则自己坦白就可获得自由；如果囚犯B告密的话，若自己不坦白就会被终生囚禁。事实上，囚犯A的策略并没有因为简单的沟通或协议而摆脱两难境地。对于囚犯B也是一样。

虽然“坦白从宽，抗拒从严”的道理人人都懂，而从博弈论的角度来看，实际上就是一个囚徒困境的应用。“囚徒困境”被看成是博弈论的代表性案例，不仅因为其简单易懂，还在于它的现象在日常生活中广泛存在。

比如，恋人们在恋爱中的海誓山盟，最终还是分手；企业之间相互沟通合作结成战略关系时是信誓旦旦，但价格战仍然会爆发；美苏两国经常会晤，甚至签订核不扩散条约，但军费一年高过一年。

囚徒困境的游戏规则，能够让狡猾的罪犯招供，得到应有的惩罚，固然不是坏事。然而，我们不妨假设囚徒A和B完全都是清白的具有理性的大大的良民，这个博弈的纳什均衡并不会因为他们的清白而改变。如果在现实生活中，审案存在对身体的残害，完全可能造成屈打成招的冤假错案。在中国历史上，这种冤案并不是什么稀少的事情。

从更深刻的意义上讲，囚徒困境模型动摇了传统社会学、经济学理论的基础，这是经济学的重大革命。

传统经济学的鼻祖亚当·斯密在其传世经典《国民财富的性质和原因的研究》中这样描述市场机制：“当个人在追求他自己的私利时，市场的看不见的手会导致最佳经济后果。”这就是说，每个人的自利行为在“看不见的手”的指引下，追求自身利益最大化的同时也促进了社会公共利益的增长。即自利会带来互利。

传统经济学秉承了亚当·斯密的思想。传统经济学认为：因此经济学不必担心人们参与竞争的动力，只需关注如何让每个求利者能够自由参与尽可能展开公平竞争的市场机制。只要市场机制公正，自然会增进社会福利。

但是囚徒困境的结果，恰恰表明个人理性不能通过市场导致社会福利的最优。每一个参与者可以相信市场所提供的一切条件，但无法确信其他参与者是否能与自己一样遵守市场规则。

简单地说就是，在一个集体里，有可能每个人的选择都是理性的，但对于整个集体来说其结果却不是理性的。比如大家所熟悉的股市，股市的参与人数虽然十分庞大，但实际上是只有多与空、机构与机构、散户与散户之间的双方“博弈”，有人将此称之为“零和游戏”。

股市“博弈”双方的多数也处在一种“囚徒困境”中。对于股市中博弈双方来说，当股市涨到最高点时，无论对散户，还是对机构来说，任何一方的最大利益在于“我卖，而你没卖，我获得最大盈利”，而对于双方来说最理想的状态是“大家都不卖，把股市推向一个更高点位，大家都有更多利润空间”。但实际结果却大相径庭，市嘲无形之手”没起作用，却是“囚徒困境”起到了决定性的作用。

佛家讲因果报应，儒家讲究“财自道生，利缘义缺。从“囚徒困境”看来，如果一味地想算计别人，算来算去，最后却算计到自己头上来了。如果我们将“囚徒困境”故事中的无期徒刑改为死刑，那么“机关算尽太聪明，反误了卿卿性命”用在这里是再恰当不过了。

那么怎么样才能摆脱“囚徒困境”呢？

博弈双方都付出代价，失去自己不愿失去的东西，但只有这样才能共存并且摆脱囚徒困境，这有如壮士断臂，不得不为，也乐得为之。

如果说“兄弟阋于墙，共御外侮”是理想化的摆脱囚徒困境的策略，那么出卖“兄弟”以还得自己的平安，则是处于囚徒困境下本能的选择。趋利避害是人的本能，在经济行为和社会行为中这一本能都鲜明地体现着。

博弈智慧

值得注意的是，并不是所有的“囚徒困境”都需要走出来或都需要解脱。如果所有的罪犯都走出了困境，那么将对社会产生灾难性后果，社会将充满了犯罪和混乱。