· 发现噪声

哪里有判断,哪里就有噪声

“同罪不同罚”令人难以接受。同样的罪行,有人被判处5年有期徒刑,有人却被判处缓刑。在许多地方,类似的事情正在发生。可以肯定的是,刑事司法制度中弥漫着偏差,但本书第1章关注的重点是噪声。一位著名的法官注意到了噪声的存在,他发现这种噪声是不道德的,并由此发起了一场在某种意义上改变世界(但还不够彻底)的运动。我们接下来要讲的故事发生在美国,但我们相信,类似的故事在其他国家也存在,甚至情况更为严重,并且它将来依然会出现。我们使用刑事判决的例子,也是想说明噪声会导致极大的不公平。

刑事判决过程充满了戏剧性,但我们也关注私人机构,因为私人机构也可能因噪声的存在而背负很大的隐形风险。为了阐明这一点,我们在第2章介绍了一家大型保险公司。在该公司,核保员的任务是为客户确定保费,而理赔员必须判定理赔的额度。你可能会猜想,这些任务简单而又机械,不同的专业人员会得出大致相同的数额。为了对这一猜想进行验证,我们精心设计了一个关于噪声审查的实验,实验结果不仅令我们惊讶,也让该公司的领导层惊讶和沮丧。据我们了解,数量众多的噪声使该公司损失了大量资金。我们使用这一案例是为了说明,噪声会造成巨大的经济损失。

这两个例子所涉及的研究都是大样本研究,也就是说,在此过程中,有很多人做出了大量判断。但是,许多重要的判断是单一的而非重复的,比方说:如何处理一个看上去独一无二的商机;是否发布一款全新产品;如何应对一场流行病;是否雇用一个不太符合标准的人……这类独特情境中的决策是否存在噪声?我们很容易认为,此类特殊情境中不存在噪声。毕竟,噪声是不必要的变异,单一决策怎么会有变异呢?在第3章中,我们会回答这个问题。我们做出的判断,即使在看似独一无二的情境中,也充满了各种各样的可能性,也存在着大量噪声。

这三章的主题可以用一句话来概括,这就是:哪里有判断,哪里就有噪声,而且它比你想象的还要多。一起来看看噪声有多少吧。

第1章
犯罪和充满噪声的判罚

假设某人被指控犯了罪,例如到商店行窃、私藏海洛因、袭击他人或持枪抢劫,该案件可能的判决结果是什么?

答案不应取决于该案件恰巧被指派给哪位法官、天气是冷是热,以及当地球队在前一天是输是赢。如果3个背景类似的人被指控犯有同一罪行,最后却得到截然不同的处罚,例如第一个人被判缓刑,第二个人被判2年有期徒刑,最后一个人被判10年有期徒刑,这样的结果显然会引起公愤。然而,在很多国家,这种不合理的情况时有发生——不仅在过去发生过,现在也依然可见。

长久以来,世界各地的法官对于案件的判决大都拥有自由裁量权。在许多国家,专家们对这种自由裁量权表示赞赏,认为它既公正又人道。他们坚持认为:刑事判决应基于多种因素,不仅要考虑罪行本身,还要考虑被告的性格及其所处的环境,“刑罚个别化”已成为当下主流;如果法官受到规章制度的约束,罪犯就可能受到不人道的对待,就不会被视为一个独特的个体,特殊情况也就无法被充分考量。在许多人看来,正当法律程序的理念似乎要求开放的司法自由裁量权。

20世纪70年代,大众对司法自由裁量权的热情开始瓦解,原因很简单:大量的证据表明,噪声无处不在。1973年,著名法官马文·弗兰克尔(Marvin Frankel)引发了公众对这一问题的关注。在成为法官之前,弗兰克尔不仅是言论自由的捍卫者,还是热情的人权倡导者,他帮助创立了人权律师委员会——一个号称“人权至上”(Human Rights First)的组织。

在人权捍卫方面,弗兰克尔有些激进,也因此他对刑事司法制度中的噪声深感愤怒。以下是他对自己帮助创立该组织的初衷的描述:

如果美国联邦银行抢劫案的一个被告被定罪,最高会被判处25年有期徒刑,这意味着刑期是0至25年不等。我很快意识到,这个数字与其说取决于案件或被告本人,不如说取决于法官,即受到不同法官的观点、偏好和偏差的影响。因此,同一起案件、同一个被告,可能会因为审理法官的不同而导致判决结果截然不同。

弗兰克尔没有提供任何统计分析来支持他的论点,但他提供了一系列强有力的事例,来证明处境相似的人受到的对待存在严重不合理的差异。比如,两名男子均无犯罪记录,都因兑现假支票触犯法律,他们兑现的金额分别为58.4美元和35.2美元,第一个人被判处15年有期徒刑,而第二个人仅被判处30天监禁。对于两起类似的挪用公款案件,一名被告被判处117天监禁,而另一名被告被判处20年有期徒刑。因此,弗兰克尔对美国联邦法官“几乎完全不受制衡的权力”表示谴责,并认为这导致美国每天都在发生着残酷专断的行为。他认为,在法治而非人治的社会存在这种现象是令人难以接受的。

弗兰克尔呼吁美国国会结束这种残酷专断的“歧视”。他所说的歧视主要所指就是噪声,即量刑中存在的难以解释的差异性;同时,他也关注由种族和社会经济地位的差异所导致的偏差。为了消除噪声和偏差,弗兰克尔敦促改革,主张不应允许存在对刑事被告人量刑上的差异,除非这种差异可以“通过足够客观的测试来说明其合理性,以确保该结果不是特定官员、法官或其他人独断专行的产物”。不仅如此,弗兰克尔还主张通过制定“详细的影响因素清单”来减少噪声,这些清单“应尽可能包括某种形式的数字,或其他客观的评分”。

弗兰克尔在20世纪70年代初就写下了这样的话,因此不是在提倡“用机器取代人”这个主张。但当时他已经很接近这一目标了,这真令人难以置信。他认为“法治需要一套在多种情况下都适用的客观的规则,从而可以对法官和其他人进行约束”。他明确主张使用计算机作为量刑时有序思考的辅助工具,此外,他还主张成立一个量刑委员会

弗兰克尔的著作成为刑事司法史上颇具影响力的著作之一——不仅在美国,在全世界范围内皆是如此。他的著作有一个缺点:存在一定程度的非正式性,不够严谨。但他指出的事实令人错愕,也令人印象深刻。为了验证刑事判决中是否确实存在噪声,一些研究者紧随其后,展开了进一步研究。

1974年,弗兰克尔主导了一项早期的大规模研究。研究人员要求来自美国不同地区的50名法官给一系列虚构案件中的被告量刑,这些虚构的案件汇总于完全相同的待判决报告中。这项研究的基本发现是:法官们“缺少共识是常态”,各种量刑之间的差异“令人震惊”。根据法官的不同,一个贩卖海洛因的毒贩可能被判1~10年有期徒刑,银行抢劫犯可能被判5~18年有期徒刑。在敲诈勒索案中,量刑从最高的20年有期徒刑外加65 000美元罚款,到仅3年有期徒刑且无罚款不等。最令人吃惊的是,对于20起案件中的16起案件,法官们竟然对被告应判多少年无法达成一致意见。

在这项研究之后,人们还进行了一系列其他研究,所有研究都发现了类似的、令人震惊的“噪声”。例如,1977年,威廉·奥斯汀(William Austin)和托马斯·威廉姆斯(Thomas Williams)对47名法官进行了一项调查,要求他们对同样的5起案件做出判决,每起案件均涉及轻罪。对案件的所有描述资料包括法官在实际判决中使用的信息列表,如指控、证词、既往犯罪记录、社会背景和与性格相关的证据。该研究的重要发现是,法官的判决之间存在“大量差异”。例如,在一起涉及入室盗窃的案件中,建议的刑期从5年有期徒刑到仅监禁30天并处以100美元罚款不等;在一起涉及非法持有大麻的案件中,一些法官建议判处被告监禁,而一些法官则建议判处缓刑。

在1981年进行的一项更大规模的研究中,被试为208名美国联邦法官,这些法官要对16起完全相同的虚构案件进行判决。该研究的结果同样令人震惊:

在这16起案件中,法官们只对3起案件一致同意判处监禁,但即使在大多数法官同意判处监禁的情况下,他们建议的刑期长短也存在很大差异:在一起诈骗案中,法官们建议的平均刑期为8.5年,而最长的刑期是终身监禁;在另一起案件中,法官们建议的平均刑期为1.1年,而最长的刑期为15年。

尽管上述研究颇具启发性,但它们毕竟都进行了严格的实验控制,所以几乎可以肯定,它们还是低估了现实世界刑事司法中的噪声数量。在现实生活中,法官接触到的信息远远多于被试在这些精心设计的实验中得到的信息。诚然,一些额外的信息与案件是相关的,但也有充分的证据表明,一些微小或看似随机出现的无关信息反而会导致判决结果出现巨大差异。例如,相比于较疲劳时,在一天的开始时段或饭后休息充分时,法官更有可能批准假释;如果处于饥饿状态,他们则会更加严格。

一项针对几千个青少年法庭判决案例的研究发现:当本地足球队在周末输掉比赛后,法官在接下来的星期一会做出更严厉的判决,在本星期其他时间的判决则更为宽容。黑人被告首当其冲地受到这种更严厉判决的影响。另一项研究调查了过去30年中的150万个司法判决案例,也发现了类似的结果,即相比于赢球后的情况,如果当地球队在开庭前一天输球,法官会做出更加严厉的判决。反之,法官就会比较宽容。

研究人员对法国法官在过去12年内做出的600万个判决进行了研究,发现如果判决日恰好是被告的生日(1),那么法官往往会较为宽容。甚至,像室外温度这种无关紧要的因素也会影响法官的决策,通过对过去4年移民法院做出的207 000份判决进行分析发现,气温的变化会对判决结果产生很大影响:当室外温度很高时,申请人获得庇护的可能性比较小。如果你希望获得庇护,那么你应该祈祷你的听证会那一天正好天气凉爽。

减少判决中的噪声

20世纪70年代,弗兰克尔法官的论点以及支持这些论点的实证结果引起了爱德华·肯尼迪(Edward Kennedy)的注意,爱德华·肯尼迪是美国前总统约翰·肯尼迪的弟弟,也是美国参议院最有影响力的成员之一。早在1975年,爱德华·肯尼迪就提议推行量刑改革法案,但遗憾的是并无任何进展。爱德华·肯尼迪不屈不挠,他年复一年地敦促美国国会实施该法案,并最终在1984年取得了成功。面对这些不合理的、具有差异性的量刑案件的证据,美国国会终于颁布了《1984年量刑改革法案》(Sentencing Reform Act of 1984)。

该法案希望,通过减少“法律赋予负责量刑、执行判决的法官和假释机构的不受约束的自由裁量权”来降低系统中的噪声。尤其是,国会议员在提到“过于悬殊”的量刑差异时,特别引用了纽约地区的调查发现:对相同真实案件的量刑可能是监禁3年,也可能是监禁20年。就像弗兰克尔法官建议的那样,国会立法允许设立美国量刑委员会(US Sentencing Commission),其主要职责很明确:发布强制性的量刑指南,并确立其限制范围。

1985年,量刑委员会通过分析1万起真实案件中类似罪行的平均刑期,制定了量刑指南。参与这一过程的美国最高法院法官斯蒂芬·布雷耶(Stephen Breyer)试图通过指出委员会内部存在的棘手分歧为过去的做法辩护:“为什么委员们不坐下来,真正使这件事合理化,而不仅仅是拿过去说事?原因很简单,我们不能这样做。我们之所以不能这样做,是因为有大量充分的证据表明我们应该采取截然相反的做法。你可以试图按照等级顺序列出所有罪行,考察其应该受到什么样的惩罚,然后收集你的朋友给出的结论,看看结论是否一致。我可以告诉你的是,不可能一致。”

根据量刑指南,法官必须在量刑时考虑两个因素:被告所犯罪行和被告的犯罪记录。根据罪行的严重程度,量刑指南将罪行分为43个等级。被告的犯罪记录则主要指被告以前被定罪的次数和判决的严重程度。一旦将罪行和犯罪记录结合起来,法官就能根据量刑指南确定一个相对具体的量刑范围,其最高刑期与最低刑期之间的差距不得超过6个月或25%。法官也可以偏离该范围来加重或减轻处罚,但必须向法院说明理由

虽然量刑指南是强制性的,但是它也并非完全没有调整的余地。它并没有达到弗兰克尔法官所希望的程度,也为法官提供了较大的裁量空间。最后,使用了各种不同方法并关注一系列不同历史时期的几项研究都得出了相同的结论:该指南可以减少噪声。更准确地说,它减少了由于量刑法官身份的偶然性而导致的判决中出现的净差异

在那之后,美国量刑委员会对量刑指南的效果进行了详尽的研究。他们比较了1985年(该指南生效前)与1989年1月19日至1990年9月30日期间(该指南生效后)银行抢劫、贩卖可卡因或海洛因,以及挪用银行公款案件中的判决。结果发现,当法官根据量刑指南中的相关因素对罪犯进行判决时,量刑结果更为一致。《1984年量刑改革法案》实施之后,法官对每个等级的罪行的判决差异都比原先少很多。

另一项研究表明,1986—1987年,法官之间在刑期长短上的差异为4.9个月;而1988—1993年,这一数字下降至3.9个月一项涵盖了不同时期数据的独立研究发现,量刑指南在减少法官之间的量刑差异方面取得了类似的成效。量刑差异是指审理过相似数量案件的法官在判决的平均刑期上的差异。

尽管有了这些发现,量刑指南还是遭到了猛烈的抨击。一些法官认为,有些判决过于严厉。事实上,这一点涉及的是偏差,而不是噪声。就我们的目的而言,一个更为有趣的反对意见是:许多法官认为该指南极度不公平,因为它会妨碍法官充分考虑案件的具体情况。减少噪声的代价就是使决策变得更机械化,这让人难以接受。耶鲁大学法学教授凯特·斯蒂斯(Kate Stith)和美国联邦法官乔斯·卡布拉内斯(José Cabranes)写道:“我们不能对案件的细节视而不见。我们要有洞察力,注重公平性,只有在判断过程中充分考虑特定案件的复杂性,才能做到这一点。”

这一反对意见给量刑指南带来了严峻挑战,有些是法律层面的,有些则是政策层面的,但都未能动摇该指南的效用。直到2005年,美国最高法院才取消了该指南,主要是由于技术原因,而与此处涉及的争论完全无关。根据美国最高法院的裁决,该指南之后仅作为参考建议。在美国最高法院做出这一裁决后,大多数法官感到更开心了。因为75%的法官更喜欢建议性制度,只有3%的法官认为强制性制度更好。

将量刑指南从强制性改为建议性,会带来什么影响?哈佛大学法学教授克丽丝特尔·杨(Crystal Yang)没有采用实验或调查的方法对这个问题进行研究,而是利用了庞大、真实的判决案例集。该案例集涉及近40万名刑事被告。通过多种测量方法,她的核心发现是:法官之间的量刑差异在2005年后明显增加。当该指南是强制性准则时,相比于严厉程度一般的法官,相对严厉的法官判处的刑期仅会多2.8个月;当该指南仅作为建议时,这种差异增加了一倍。像40年前的弗兰克尔法官一样,克丽丝特尔·杨写道:“我的发现引起了人们对公平的广泛关注,因为在很大程度上,量刑法官身份的不同造成了‘同罪不同罚’这一不公正现象。”

在量刑指南成为建议性准则之后,法官更有可能根据自己的价值观做出判决。可见:强制性准则既能减少偏差,也能减少噪声。在美国最高法院做出将量刑指南作为参考建议的裁决后,美国非裔被告与犯有相同罪行的白人被告之间的量刑差距明显增加。同时,女性法官比男性法官更有可能行使她们日益增加的自由裁量权,从而对犯人做出宽大处理。

弗兰克尔在2002年去世,3年后,强制性的量刑指南被取消,美国人又开始重新经历他所说的噩梦:无秩序的法律。

弗兰克尔法官为争取量刑指南而战的故事,能够让我们一窥本书将要论述的几个关键点。

第一,世界充满复杂性与不确定性,因此判断是一件困难的事情。这种复杂性在司法领域显而易见,在其他大多数需要专业判断的情形中也是如此。从广义上讲,这些情形包括由医生、护士、律师、工程师、教师、建筑师、招聘委员会成员、图书出版商、各类企业高管以及球队经理人等所做的判断。凡是判断,就不可避免地存在分歧。

第二,分歧的程度比我们预想的大得多。尽管很少有人会反对司法自由裁量权原则,但几乎每个人都会反对它所产生的差异。在理想情况下,判断应该完全相同,不应该存在差异。因为差异会导致层出不穷的不公平现象、高昂的经济成本和多种类型的错误。

第三,噪声是可以减少的。由弗兰克尔倡导并由美国量刑委员会实施的方法——颁布强制性量刑指南,是成功减少噪声的几种方法之一。另外,还有一些方法更适用于其他类型的判断。一些减少噪声的方法同时也可以减少偏差。

第四,减少噪声的努力往往会招致反对,让人举步维艰。这些问题必须得到解决,否则对抗噪声的斗争最终还是会失败。

· 消除噪声

判决中的噪声

· 实验表明,不同法官对相同案件的判决存在巨大差异。这种差异是不公平的。被告的判决结果不应取决于该案件恰好被指派给了哪位法官。

· 刑事判决不应取决于法官在听证会上的心情或室外的温度。

· 强制性的量刑指南是解决噪声问题的一种方法。许多人不喜欢这种做法,因为这会限制法官的司法自由裁量权,他们认为这种自由裁量权可能是确保公平和准确性所必需的。毕竟,每个案例都是独一无二的。

第2章
系统噪声,给人达成一致的错觉

我们最初接触噪声,并对这个主题产生兴趣,并不是因为遇到了像刑事司法案件那般富有戏剧性的案例。实际上,这次邂逅纯属偶然,缘于一家保险公司,这家公司与我们中的两人所属的咨询公司有合作。我们的研究揭示了营利性组织中存在噪声问题的严重性——组织会因为决策中的噪声损失惨重。我们在保险公司的经历有助于解释为什么噪声问题常常被忽视,以及要想解决这个问题,我们能做些什么。

保险公司的高管们正在权衡减少噪声这项工作是否有必要,即是否需要提升为公司做出重大财务决策的人员之间判断的一致性。虽然每个人都认为需要保持一致,但大家都明白这些判断不可能完全一致,因为它们具有一定的主观性。总之,有些噪声不可避免。

在谈到噪声数量时,大家出现了分歧。高管们怀疑,噪声对他们的公司而言是否真的是一个重大问题。非常值得称赞的是,他们同意通过一个简单的实验来解决这个问题。我们称这个实验为噪声审查。结果让他们感到惊讶。这个案例也有力地证明了噪声问题确实存在。

抽签会引发噪声

大型保险公司中的许多专业人员都有权做出对公司具有约束力的判断。例如,上述这家保险公司雇用了许多核保员,他们会根据财务风险为投保人提供保费报价,比如为银行提供针对因欺诈或流氓交易造成损失的保险。公司还雇用了许多理赔员来预测未来会产生的索赔费用,并在发生纠纷时与索赔人进行谈判。

保险公司的每个大型分支机构中,都会有数位具备资质的核保员,当有人想知道报价时,任何有空的核保员都可能被指派去做这项工作。实际上,核保员是随机指定的,而报价数额却会对公司产生重大影响。如果保费高,而报价被客户接受,那么对保险公司是有利的,却存在将业务输给竞争对手的风险。低额保费更容易被客户接受,但对保险公司而言却是不利的。也就是说,对于任何风险,都有一个恰到好处的“金发姑娘价格”(Goldilocks Price)(2)——既不会太高,也不会太低。大多数专业人士判断出的平均价格很可能与这个“金发姑娘价格”相差不大,高于或低于这个价格,保险公司都会付出很大的代价。

理赔员的工作也会影响到保险公司的财务状况。例如,假设有人提交了一份索赔申请,而索赔人是一名在工业事故中失去右手的工人。就像核保员的分配一样,某位理赔员被指派受理该索赔案是因为他恰好有空。该理赔员的职责是收集案件的实情,并向公司提供最终成本的估价。他随后负责与索赔人的代表进行谈判,以确保索赔人获得保单中承诺的利益,同时保险公司也不用支付过多费用。

早期的估价很重要,因为它为理赔员与索赔人在未来的谈判中设定了一个隐性的目标。法律规定,保险公司有义务为每项索赔预留足够的资金。从保险公司的角度来看,这里的“金发姑娘价格”很重要,报价过高或过低都无法确保很好地解决问题:一方面,如果报价过低,索赔人的律师可能会选择诉诸法律;另一方面,过于慷慨可能会使理赔员因自由度过高而同意索赔人的无礼要求。理赔员的判断对公司很重要,对索赔人而言也同样重要。

我们用“抽签”这个词来强调在选择核保员或理赔员时的随机性。正常情况下,保险公司只会为每一起案件分配一位专业人员,我们无法得知如果换成另外一位专业人员,情况会有什么样的不同。

当然,抽签也有好处,不是完全不公平的。进行“好的”(如一些大学的课程)或“坏的”(如美国的征兵工作)资源分配时,人们都能够接受抽签的形式。抽签有它存在的意义,但我们所谈论的判断中的抽签并不分配任何东西,采用这种比喻是想要强调:它们只会产生不确定性。想象一下,假如一家保险公司的核保员是不存在噪声问题的,他们能够设定最佳保费,但一个“抽签装置”介入并修改了实际报价,显然这样的抽签是不合理的。在一个系统中,如果结果取决于随机选择的专业判断者的身份,这非常不合理。

噪声审查,系统噪声无处不在

以类似抽签的方式指派一位法官来审理刑事案件或选择一位射击手代表一支队伍出战,都会产生差异性,但这种差异性是隐而未见的。就像审查美国联邦法官在量刑方面的差异性那样,噪声审查是揭示噪声的一种方法,在这样的审查中,多人对同一起案件进行评估,于是他们评估中的差异性就可以显现出来。

核保员和理赔员的判断尤其适用于这种审查,因为他们都是根据书面材料做判断的。在噪声审查开始之前,保险公司高管向每个小组(核保员和理赔员)详细描述了5个代表性案例,随后要求每一组的成员对两三个案例进行独立评估。为了检查他们判断之间的差异性,研究人员事先没有告知这些员工该研究的目的。

在继续阅读之前,不妨想想,你会如何回答以下问题:在一家经营状况良好的保险公司中,如果你随机选择了两位有资质的核保员或理赔员,你预测他们对同一案件的估价会有多大差异?具体而言,两个估价之间的差异占他们估价平均值的百分比是多少?

在随后的几年中,我们让保险公司的众多高管们也回答这个问题,并获得了各界人士对此的估值。令人惊讶的是:有一个答案显然比其他所有答案都有人气,大多数高管猜测的差异值为10%或更少。我们调查了828位来自不同行业的CEO和高管,询问他们希望在类似的专家判断中发现多少差异,最常见答案的中位数也是10%(排名第二常见的答案是15%)。10%的差异意味着,如果两位核保员中的一位将保费设定为9500美元,那么另一位可能报出10 500美元的保费。虽然这一差异不算微不足道,但它仍在组织能够容忍的差异范围内。

然而,我们的噪声审查发现的差异更大。根据我们的计算,核保员的中位数差异为55%,大约是大多数人(包括公司高管)估计值的5倍多。这一结果意味着,当一位核保员将保费定为9500美元时,另一位核保员很可能不是将保费定为10 500美元,而是定为16 700美元。另外,理赔员的中位数差异为43%。需要注意的是,我们强调的这些结果是中位数,事实上,在一半的案件中,两个判断之间的差异甚至更大。

当我们将噪声审查结果提交给高管们时,他们很快意识到巨大的噪声会让公司付出高昂的代价。一位高管估计,保险公司每年在承保方面的噪声成本是数亿美元,包括报价过高造成的业务损失和低价合同造成的收益损失。

没有人能准确地说出一项决策中到底存在多少错误或多少偏差,因为没有人能确切地知道每一种情况下的“金发姑娘价格”。但是,要想测量射击点的分散程度,并意识到差异性是一个问题,我们并不需要知道靶心在哪里。数据显示,要求客户支付的价格在一定程度上取决于被抽中的是哪位核保员。至少可以说,如果未经客户同意就做出这样的抽签式指派,客户也不会满意。更为普遍的是,与组织打交道的人希望系统能够提供可靠的一致性判断。总之,他们不希望自己的系统中存在噪声。

不必要的变异性与有利的多样性

系统噪声的一个特点是,它是不必要的,而我们想要强调的是:判断中的变异性并非总是不必要的。

让我们想想人们的偏好或品位问题。如果有10位影评人观看同一部电影,或有10位品酒师评价同一款酒,又或有10位读者阅读同一部小说,我们并不期望他们给出完全相同的评价。毕竟,人各有所好,这完全在意料之中,因为没有人愿意生活在一个所有人的好恶都完全相同的世界中。然而,如果我们的个人品位被误认为是专业判断,那么品位多样性就可能导致错误。如果一位电影制片人决定推进一个“小众”的项目(比如,转盘电话的兴衰),其原因仅仅是他个人喜欢这个剧本,而不管其他人对这个项目的看法,那么就可能会犯下大错。

在最优判断会得到奖励的竞争环境下,人们也会期待和欢迎判断中的变异性。当几家公司或同一组织中的几个团队竞相为同一个客户问题制订创新性解决方案时,我们就不希望他们采用相同的方法;当多个研究团队试图攻克同一个科学问题时,情况也是如此,例如在研制疫苗时,我们希望各研究团队能从不同的角度去看待问题。即使是预测者,有时也会表现得像个竞争者一样。如果预测者能从别人没有想到的视角,正确地预测到经济衰退的可能性,那么他肯定会一举成名,而墨守成规、从不偏离一致性的人则将碌碌无为。在这种情况下,想法和判断的变异性同样有存在的必要,因为变异是第一步。在随后的阶段,这些判断的结果会相互竞争,最优判断会获得胜利。市场犹如自然界,没有变异,选择就不会起作用。

品位和竞争引发了有趣的判断问题,但我们的讨论重点是判断中存在的不必要的变异性。系统噪声是系统层面的问题,系统是组织,不是市场。当交易员对同一只股票的价值做出不同的评估时,其中一些人会赚钱,另一些人则不会,可以说正是分歧造就了市场。但是,如果随机选择其中一名交易员来代表他任职的公司进行评估,我们还发现他的同事做出了非常不同的评估,那么该公司就存在系统噪声,这就是一个大问题。

当我们向一家资产管理公司的高级经理提出我们的发现,并敦促他们进行噪声审查时,这个问题就被很好地说明了。他们要求公司中42名经验丰富的投资经理估计一只股票的公允价格(当股价达到该价格时,投资经理不会进行买卖交易)。他们只是根据一页纸的业务描述进行分析,其中的数据包括过去3年的简化损益表、资产负债表、现金流量表以及对未来2年的预测。用我们在保险公司案例中使用过的噪声审查方法测量噪声水平,得到的噪声中位数为41%。同一家公司的投资经理在采用相同估值方法的情况下出现如此大的差异,这可不是一个好消息。

正如资产管理公司、刑事司法制度以及前面讨论的保险公司的案例一样:只要判断者是从一群具有同等资历的人中随机挑选出来的,噪声就是一个必然存在的问题。系统噪声困扰着许多组织和机构:比如,你去医院接受哪位医生的治疗、哪位法官在法庭上审理你的案件、哪位专利审查员审查你的申请、哪位客户服务代表听取你的投诉等。在这些由不同人做出的判断中,不必要的变异性会引发严重问题,包括金钱损失和广泛存在的不公平现象。

关于判断中不必要的变异性,一个常见的误区是认为它无关紧要,因为通常来说,随机错误是可以相互抵消的。当然,在关于同一案件的判断中,正负误差会趋于相互抵消,我们将详细讨论如何利用这一特性来减少噪声。但存在噪声的系统并非对同一案例做出了多次判断,而是对不同的案例做出了有“噪声”的判断。如果保险公司对一份保单的理赔金额估价过高,而对另一份保单估价过低,从平均值而言,两次估价看起来可能是适当的,但实际上保险公司却犯下了两次代价高昂的错误。如果两名罪犯都应该被判处5年有期徒刑,却分别被判处了3年和7年有期徒刑,那么尽管平均值是5年,但事实上正义并没有得到伸张。因此可以看出,在充满噪声的系统中,错误不会相互抵消,只会累加。

达成一致的错觉

几十年前已有大量文献记录了专业判断中的噪声,因为我们了解这些文献,所以对保险公司的噪声审查结果并不惊讶。然而,令我们惊讶的是高管们在听到报告结果时的反应:公司中没有人预料到我们会观察到那么多的噪声数量,没有人质疑审查的有效性,也没有人声称观察到的噪声数量是可接受的。噪声问题及其导致的巨大成本对该组织来说似乎是一个新问题。噪声就像地下室漏水,它之所以能被容忍,不是因为人们认为它是可接受的,而是因为它一直未被发现。

这怎么可能呢?同一职位、同一办公室的专业人员之间怎么会有如此大的差异而不被察觉?高管们知道这对公司的业绩和声誉是一个重大威胁,他们怎么会没有注意到这一点呢?我们发现,组织经常无法识别系统噪声问题,组织对噪声的普遍无视与它的普遍存在一样有趣。噪声审查表明,受人尊敬的专业人员以及雇用他们的组织存在一种一致性错觉,事实上,他们在日常的专业判断中常常存在分歧。

想要理解一致性错觉是如何产生的,你可以把自己想象成一位核保员:你有5年以上工作经验,你知道自己在同事中享有较高声誉,并且你也尊重和喜欢你的同事。你对自己的工作能力很有信心。在仔细分析了一家金融公司所面临的复杂风险后,你给出了结论,认为将保费设定为200 000美元比较合适。这个问题虽然很复杂,但与你每天要解决的其他问题没有太大的区别。

现在想象一下,你被告知你的同事也拿到了同样的资料,并针对同样的风险进行了估价。然而,他们中至少有一半人设定的保费要么高于255 000美元,要么低于145 000美元,你会相信吗?这种想法的确很难让人接受。我们怀疑,那些听说过噪声审查并接受其有效性的核保员很难真正相信这一结论适用于他们自己。

多数时候,我们大多数人都有一个根深蒂固的信念,即这个世界就是它看起来的样子。当然,也很容易相信:“其他人对世界的看法与我差不多”。“其他人对世界的看法与我差不多”这样的信念也被称为“天真的现实主义”,它对于我们与他人共有的现实感而言至关重要,而且我们很少质疑这些信念。我们在任何时候都对周围的世界持有一种单一的解释,通常而言,我们很少会投入精力来寻找其他可能的解释。在我们看来,一种解释就足够了,我们将其视为真实的经验。人们通常不会想到用其他方式来看待自己所看到的东西。

就专业判断而言,相信他人也像我们一样看待世界的信念每天都在以多种方式被强化。首先,我们与同事使用同一种语言,遵循着同一套规则来考虑决策中的重要因素。我们也有一些可靠的经验,可以就违反这些规则的荒谬判断与他人达成一致。我们把与同事之间偶尔出现的分歧看作对方的判断失误,却很难意识到,我们一致认定的规则是含糊不清的。这些规则虽然足以消除某些可能性,但并未明确规定可对特定案例做出的积极回应。我们可以与同事愉快地相处,根本不会注意到他们实际上并不像我们那样看待世界。

我们采访的一位核保员描述了他成为自己所在部门“老手”的经历:“当我还是新人时,75%的案件都是与我的主管一起讨论的,没过几年,我就不需要再这样做了。我现在被视为专家,久而久之,我对自己的判断越来越有信心。”像大多数人一样,这位核保员主要通过不断实践来建立对自己判断的信心。

这个过程的心理学机制已被大众所熟知。信心来自主观的判断经验。个体做出这些判断越来越熟练、越来越轻松,这其中的部分原因在于,这些判断与过去经历过的判断类似。随着时间的推移,这位核保员学会了与过去的自己达成一致,他对自己的判断的信心也随之增强。他的叙述并没有表明,在最初的学徒阶段之后,他已经学会了与他人达成一致,已经知道了自己的观点与别人的观点能达到多大程度的一致,或是曾经尝试过防止他的做法偏离同事的做法。

对于保险公司来说,一致性错觉只有通过噪声审查才能被戳破。领导层为何一直没有意识到噪声问题?这里有几个可能的因素,但在许多情况下起最大作用的是对分歧的不适感。大多数组织喜欢共识与和谐,不喜欢异议和冲突。现有的程序似乎是特意设计的,用来将分歧出现的频率最小化,以及在发生分歧时予以消除。

我们可以用明尼苏达大学心理学教授、杰出的成绩表现预测研究者内森·昆塞尔(Nathan Kuncel)给我们分享的故事来说明这个问题。昆塞尔正在帮助一所学校的招生办公室评估其决策过程。首先,一位评阅人阅读了一份申请文件并进行评分,然后将其连同评分一起交给了第二位评阅人,后者也对其进行评分。昆塞尔建议最好隐去第一位评阅人的评分,以免影响第二位评阅人的判断。学校的答复是:“我们以前就是这样做的,却导致了很多分歧,所以我们才改用了现在的方式。”要知道,这所学校并不是唯一一家认为避免冲突与做出正确决定至少同等重要的机构。

考虑一下许多公司采用的另一种机制:对失败的判断进行事后总结。作为一种学习机制,事后总结是有用的,但是如果真的犯了错误,比如某项判断严重偏离了专业规范,那么对该错误进行讨论就没有意义了。专家们很容易得出这样的结论:失败的判断与共识相去甚远。他们也可能将其作为一种罕见的例外情况记录下来。错误的判断比正确的判断更容易被识别。在做出广泛可接受的判断时,指出不合格的同事犯的严重错误并排挤他们,对专业人士了解自己与他人的分歧程度并没有什么帮助。相反,对错误判断的简单共识甚至可能会强化一致性错觉。这样,人们永远也不会认识到“系统噪声无处不在”的事实。

我们希望你能够认同我们的观点,认识到系统噪声是一个严重的问题,它是普遍存在的。判断天生是非制式的,所以噪声的出现也是自然而然的。然而,正如我们将在整本书中看到的,当组织认真审视和看待噪声时,观察到的噪声数量几乎总是令人震惊。我们的结论很简单:哪里有判断,哪里就有噪声,而且它比你想象的还要多。

· 消除噪声

保险公司中的系统噪声

· 我们非常依赖核保员、理赔员和其他人员的专业判断的品质。但我们在把案件指派给每一位专家时,常常错误地假定其他专家也会对该案件做出类似的判断。

· 系统噪声比我们想象中的大数倍,甚至超出我们可以承受的范围。如果没有噪声审查,我们将永远不会意识到这一点。噪声审查打破了一致性错觉。

· 系统噪声是一个严重的问题:它给我们造成了难以估计的损失。

· 哪里有判断,哪里就有噪声,而且其数量之大超出我们的想象。

第3章
单一决策,仅发生一次的重复决策

到目前为止,我们所讨论的案例研究都与重复决策相关。比如,对盗窃犯的恰当判决是什么?对某一特定风险该收取多少保费?虽然每个具体的案例在某种意义上都是独特的,但像这样的判断属于重复决策。医生诊断患者,法官审理假释案件,招生人员审查入学申请书,会计师准备税单等,这些都是重复决策。

正如前一章所介绍的,重复决策中的噪声可以通过噪声审查识别出来。当无本质差异的专业人员在相似的情况下做决策时,不必要的差异性很容易被定义和测量。然而,要将噪声这一概念应用于我们称为单一决策的判断中,似乎要困难得多,甚至是不可能的。

例如,让我们回想一下2014年世界面临的危机。在西非,无数人死于埃博拉病毒感染。世界是紧密相连的,大量预测表明,病毒将会迅速蔓延到世界各地,并对欧洲和北美造成尤为严重的影响。在美国,有人坚持要求暂停来自受感染地区的航班,并采取积极措施关闭边境交通线路,很多知名人士和有识之士也都赞成采取这些措施。

这是美国前总统奥巴马在他任期内面临的最困难的决策之一,这也是他以前从未遇到过,以后也不太可能再遇到的决策。最终,他没有选择关闭边界,相反,他派遣了3000人到西非,其中包括医务工作者和军人。并且,奥巴马领导了一个由国际组织组成的多元化国际联盟,并利用其资源和专业知识从根源上解决问题。

单一决策vs重复决策

像美国前总统奥巴马应对埃博拉疫情这样只需做一次的决策就是单一决策,因为它们不是个人或团队必须常常做出的决策,一般缺乏预先准备好的应对措施,并且具有真正独有的特征。在应对埃博拉疫情时,奥巴马和他的团队没有真正的先例可供借鉴。重要的政治决策通常是单一决策,军事指挥官的重大抉择也属于这一范畴。

对个人来说,你在找工作、买房子或求婚时做出的决策也有类似的特点。即使这可能不是你的第一份工作、第一套房子或第一段婚姻,尽管有无数人也面临过这些决策,但这个决策对你而言依然是独一无二的。在商业领域,公司负责人经常要做出对他们来说似乎是独一无二的决策,比如:是否推出一个可能改变“游戏规则”的创新计划,在流行病暴发期间应该关闭多少店铺,是否要在国外开设办事处等。

可以说,单一决策和重复决策之间的差异在于连续性而非类别。比如,核保员可能会处理一些非同寻常的案例。如果你已经是第四次买房,那么你可能已经开始将买房视为一个重复决策了。极端化的例子能够清晰地表明,对单一决策和重复决策进行区分是有意义的,比如,是否发动战争是一回事,进行年度预算审查则是另一回事。

单一决策中的噪声

通常,单一决策被视为与重复决策截然不同的类型。大型公司中由无本质差异的雇员所做的常规决策就是重复决策。社会科学家已经对重复决策进行了大量的研究,而高风险的单一决策则一直是历史学家和管理大师们的研究对象。这两类决策的研究方法有很大的不同。对重复决策的分析往往采用统计方法,社会科学家会通过对多个类似的决策进行评估,识别其中的模式,确定其规律并测量其准确性。相反,对单一决策的讨论通常从因果关系视角进行事后总结,集中探讨的是事件发生的原因。历史分析,比如对成功与失败的管理案例进行分析,是想了解某个独一无二的判断是如何做出的。

单一决策的特性对研究噪声提出了挑战。我们将噪声定义为对相同问题进行判断的过程中产生的不必要的变异。单一决策无法被重复,因而这个定义对它并不适用。毕竟,历史只发生一次,你永远无法将奥巴马在2014年向西非派遣医务工作者和军人的决策,与其他美国总统在特定时间处理特定问题的决策进行比较(尽管你可以进行推测)。你可以将你决定嫁给心仪之人的决策同其他与你相似的人的决策做比较,但这种比较显然不同于我们对同一案件中不同核保员提出的报价所进行的比较。也就是说,对于单一决策,我们没有直接的方法来考察是否存在噪声。

然而,单一决策并非不会受到那些在重复决策中产生噪声的因素的影响。在射击场上,C队(即图0-1中的噪声队)的射击手可能曾朝不同的方向调整来复枪的瞄准器,也可能只是他们的手不稳。如果只观察C队的第一名射击手,我们无法得知该队的噪声水平,但事实上噪声源是一直存在的。在做出单一决策时,你必须想象另一个决策者,即使他和你能力相当、有着相同的目标和价值观,他也会从相同的事实中得出不同的结论。作为决策者,你应该认识到,如果情境中的无关变量或决策过程有所不同,那么你就可能会做出不同的决策。

换句话说,我们无法测量单一决策中的噪声,但如果我们进行“反事实思考”(counterfactual thinking),则可以肯定噪声是存在的。就像射击手的手不稳将意味着单次射击可能落在靶心以外的地方一样,决策者内部以及决策过程中存在的噪声,也意味着单一决策可能会有所不同。

接下来,我们思考一下影响单一决策的所有可能因素。如果负责分析埃博拉疫情的威胁和制订应对计划的专家是不同的人——他们拥有不同的背景和生活经历,那么他们向奥巴马提出的建议会相同吗?如果以稍微不同的方式呈现相同的事实,那么讨论还会以相同的方式展开吗?如果关键人物当时的心情有所不同,或在暴风雪中开会,最终的决策会不同吗?从这个角度看,单一决策似乎就有了可变的空间。可见,决策可能会受到很多我们未知的因素的影响,并最终变得不同。

关于另一个反事实思考的训练是,我们可以考虑不同国家和地区如何应对新型冠状病毒肺炎疫情。即使病毒在大致相同的时间内,以类似的方式侵袭世界各国,不同国家做出的应对也存在很大差异。这种差异为不同国家决策中的噪声问题提供了确切证据。但是,如果该病毒只侵袭了一个国家呢?在这种情况下,虽然我们不会观察到任何差异性,但决策中的噪声并不会减少。

控制单一决策中的噪声

对这一问题的理论探讨非常重要。如果单一决策与重复决策一样存在噪声,那么用于减少重复决策中噪声的策略应该也可以用于提高单一决策的品质。

有人建议,当你做出独特的决策时,你的直觉要将其视为某一类决策中的一种。这一建议似乎与我们的直觉相悖。有人甚至声称,概率思维的规则与不确定性情境下做出的单一决策完全不相关,而且单一决策需要使用一种截然不同的方法。

我们的意见恰恰相反。从减少噪声的角度来看,单一决策是仅发生一次的重复决策。无论只做一次决策还是做一百次决策,你的目标都应该是减少偏差和噪声,而且减少错误的实践方法在单一决策和重复决策中同样有效。

· 消除噪声

清楚认知单一决策

· 当你遇到一个不同寻常的机会时,你的应对方式就可能产生噪声。

· 请记住:单一决策是仅发生一次的重复决策。

· 那些造就你的个人经历,与你目前要做的决策实际上没多大关系。