试论述囚徒困境对于经济学的意义.
“囚徒困境”是博弈论的一个经典案例。它是著名经济学家塔克最早修改而提出来的一个例子。囚徒困境讲述的是这样一个故事:警察抓住两个偷窃的嫌疑犯,并分别把他们隔离在两个审讯室中进行审问。警察知道这两个人除此次人赃俱获的偷窃外,还犯有其他罪行,但缺乏足够的证据定罪。于是,警察想就此机会,让嫌疑犯彻底坦白其罪行,其方法是分别私下告诉每一个嫌疑犯如下的出路:如果只有他一人坦白而对方抵赖,那么,坦白者被释放,抵赖者被判9年徒刑;如果两人都坦白,各判5年;如果两人都抵赖,当然就只能以现有证据,各判2年。在这种情况下,每个嫌疑犯都只有“坦白”或“抵赖”两种策略选择,并面临着四种可能的结局,表10-2刻画了这两个嫌疑犯面对的博弈。 其中,每格前一个数字代表A的支付(即被判的刑期),后一个数字代表B的支付。这种博弈的结果将是:如果每个嫌疑犯都只是想使自己的利益最大化(即被判的刑期最短),而且无法影响对方的行为,那么,唯一可能的答案就是:两人都坦白交代,各自被判5年徒刑。因为在此案例中,当参与者力图使其损失最小化时,他就只能遵循“最小最大”的决策标准,即“最大损失中求取最小损失”的决策,参与者将选择那种能使可能的最大损失最小化的策略。对于囚犯A来说,最大损失中求取最小损失的策略是“坦白”,对B来说,同等的策略也是“坦白”,从而建立起一种策略均衡。在这种均衡中,“坦白”是他们每个人的超优策略。{图0} 其实在“囚徒困境”中,最好的结局是都“抵赖”,各判2年徒刑,但这是不可能的。因为不论是嫌疑犯A还是B,只要单独改取“坦白”的策略,就会由2年的徒刑改为释放,因而存在着偷换策略的诱感,处于不稳定的状态。在右上角如果B改取“坦白”的策略,刑期就可以从9年减为5年,因而也存在着偷换策略的诱惑,处于不稳定状态。同样的道理,左下角也处于不稳定状态。简言之,“抵赖”是一种劣策略。理性的参与者当然不会选择这种策略。 如果嫌疑犯在决定是否坦白之前可以交流信息,结果不会有差异。假设他们认识到警察已经发现他们的隐瞒之事,但他们在被抓之前有几分钟时间进行理性的讨论。嫌疑犯A-开始就指出,虽然每个人都有一个超优策略,但“坦白”会导致一个帕累托无效率的结果,所以,为什么不一致否认罪行呢?嫌疑犯B也有此思想,并同意这样做。但是两个小时后,他们最终会背叛同盟,坦白认罪,形成各判5年的结果。因为虽然有口头协议,但它却不具有约束力。每个囚徒都希望对方抵赖,自己坦白而释放。当他们都这样想并这么做时,就形成(坦白,坦白)的策略组合,(坦白,坦白)的策略组合是一个纳什均衡。 可以从上述讨论中得出一个重要的结论:超优策略均衡虽然是唯一可以预见到的结果,但这种策略组合却不一定是帕累托有效率的策略。在“囚徒困境”中,(坦白,坦白)是帕累托无效率的策略,因为每个人都被判5年徒刑,并不是博弈者共同的最优结果。他们共同的最优结果应该是各判2年,但却是无法实现的。于是,“囚徒困境”常常被经济学家作为一个经典案例来说明:自利的个人理性行为并没有导致一个社会的最佳结果,即个人理性与集体理性之间存在着深刻的冲突。 当然,在重复博弈中,囚徒困境可能会出现非合作性的共谋。尽管每个囚犯冒着被其他囚犯出卖的风险,但如果他选择不合作,就会失去获得长期合作收益的可能性,如果博弈重复的次数足够多,未来收益的损失就会超过短期被出卖的损失,因此,可能会出现参与者彼此合作的情况,采取帕累托有效的策略。