1.2 怎样才能找到原因

哲学家们长期以来一直在关注“原因究竟是什么”这个问题,但是界定因果关系的主要哲学方法以及我们今天用来从数据中寻找因果关系的计算方法,却直到20世纪七八十年代才出现。我们不知道将来是否会出现一个公认的因果关系理论,但我们有必要了解这个广泛使用的概念的含义,只有这样才能更清晰地对它进行思考和讨论。我们在因果关系研究领域所取得的任何进步都会对计算机科学以及其他领域产生广泛的影响。假如原因不仅是一种事物,那么我们可能就要用多种方法去寻找它、描述它,并且用不同的实验来验证人们关于原因的直觉。

自休谟以来,因果关系研究领域所面临的主要问题是:我们该如何区分包含因果关系的事件和不含因果关系的事件。20世纪六七十年代出现了三种主要的研究方法,都建立在休谟的理论基础之上。单一的原因不太可能引起某种结果,所以John L. Mackie提出了一个理论,他认为某种结果的产生是由一系列条件共同导致的。12这一理论很好地为我们排除了不包含因果关系的事件,并且解释了原因的复杂性。类似地,许多因果关系都包含偶然性因素,在这类情况下,原因可能只是提高了某种结果出现的可能性,但并不保证它一定会出现。针对这一特征,Patrick Suppes及其他研究者们提出了概率法。13休谟的理论还促成了反事实推理法:通过假设导致某件事的原因不存在,事情的发展会有何不同,从而来界定这一事件发生的原因。14比如说,某个人是赢得一场比赛的主要原因,因为如果没有他,这场比赛就不会赢。

哲学上的这些方法似乎已经脱离了寻找因果关系的计算方法,但这些不同的因果思维却能为我们提供许多方法去寻找因果关系的证据。对于计算机科学家来说,人工智能的梦想之一就是实现自动推理。要做到这一点,关键之一在于找到事件发生的各种原因,并利用它们来形成各种解释。这项工作在现实生活中得到了广泛的应用,从机器人的生产(机器人需要使用现实世界的各种模型来计划自己的行为,并预测这些行为的结果)到广告宣传(亚马逊如果知道你点击“现在购买”按钮的原因,就能向你推荐更适合你的商品)再到医疗服务(重症监护病房里的患者的身体状况突然发生变化时,会向医生发出警报)。然而,要想制定出算法(解决问题的一系列步骤),我们需要对问题进行精准的描述。要想设计出能够找到原因的计算机程序,我们需要对原因进行定义。

20世纪80年代,以Judea Pearl为首的计算机科学家们向人们证实了,以概率来定义因果关系的哲学理论可以用图表来表示。这些图表可以向人们直观地呈现出事件之间的因果关系,并为人们提供了针对不同变量之间的数学关系进行编码的方法。更重要的是,他们还引入了一些根据先验知识来构建图表以及从数据中寻找它们的方法。15这就为我们带来了很多新的问题。如果因果事件之间存在可变延迟,那我们还能找到因果关系吗?如果因果关系本身会随着时间而发生改变,那我们能从中学到什么?计算机科学家们设计了一些能够自动寻找事件的解释的方法,以及测试这些解释是否符合实际的方法。尽管我们在过去的几十年里取得了很多成就,但是依然面临着许多挑战,尤其是我们对数据的依赖程度已经越来越高。我们现在所面临的不是那些为了研究而精心挑选出来的数据集,而是海量的、不明确的、根据观察得到的数据。想象我们正面临这样一个简单的问题:根据Facebook数据了解人们的人际关系。第一个困难是,并不是所有人都使用Facebook。所以,我们只能通过Facebook研究一部分人的人际关系。这部分人也许并不能代表所有人,也不能代表你感兴趣的某一类人。此外,人们使用Facebook的方式也不尽相同。有些人从来不会显示他们的人际关系,有些人可能会显示虚假的人际关系,还有些人可能不会及时更新他们的个人信息。

在因果推理过程中,尚未解决的关键问题包括:从不明确的或缺少变量和未经观察(如果我们没有观察吸烟这个变量,是否会错误地把其他因素当作引起肺癌的原因)的数据中寻找事件的原因,寻找事件之间的复杂关系(如果这个结果是一系列事件共同导致的呢),以及寻找偶发事件的原因和结果(是什么导致了2010年股市的闪电崩盘)。

有趣的是,电子健康记录等海量数据正将流行病学与健康计算工作相结合,以了解影响人口健康的因素。我们的研究是先了解影响健康的因素,然后利用这些知识来指导公共健康干预措施,而大量人口的长期健康数据(他们的诊断、症状、用药情况、所接触的环境等)对研究有莫大的帮助。我们面临着双重挑战——研究设计(流行病学的一贯研究重点)并从大型数据集(计算机科学的主要焦点)中进行高效且准确的推理。由于流行病学的研究目标比较特殊,所以它在设计方法以寻找原因方面有着很长的历史,从James Lind随机检查水手来寻找坏血病的病因16,到John Snow发现被污染的水泵是导致伦敦霍乱疫情的一个原因17,到Koch提出的假设在细菌和肺结核之间建立了因果关系18,再到Austin Bradford Hill将吸烟和肺癌联系在了一起,并为人们评估因果关系提供了一些指导原则。19

医学研究也比以前更加依赖数据了。各大医院和私人诊所都在将病人的病历从纸质图表转换为电子格式,但这种转换工作必须满足有意义的使用标准(比如能够利用数据来帮助医生诊断病情),它所带来的好处要能够抵消转换工作所消耗的成本。然而要想满足这些标准,很多工作都要进行海量的数据分析,这就需要使用计算方法。

神经科学家可以通过脑电图描记器和功能磁共振成像仪来收集有关大脑活动的海量数据,并利用计算机科学和经济学的研究方法来分析这些数据。脑电图中的数据本质上就是大脑活动的量化数字记录,这种记录在结构上和股市数据差不多(股市数据可以告诉我们随着时间的变化,股票的交易价格和交易量是多少)。Clive Granger提出了经济时间序列中的因果关系理论(他因此获得了诺贝尔奖),这一理论不仅适用于经济学,还被应用于其他生物学数据,如基因表达阵列(用来测量随着时间的变化,基因的活跃程度如何)。20

经济学中的一个关键挑战是,判断执行某个政策是否能实现预期的目标。这与公共健康领域所关注的问题十分类似,比如判断是否可以通过减少苏打水的瓶身容量来减轻肥胖症问题。这个问题也是我们所面临的最难解决的问题之一。在很多情况下,所颁布的政策本身就会改变社会的体制。我们会在第9章看到这样一个例子:田纳西州最初做了一个缩小班级规模的实验,于是加州用一种十分仓促的方式也缩小了班级规模,但这两个事件的结果截然不同。如果所有条件都不变的话,那么一项干预政策可能会带来积极的影响,但也可能会改变人们的行为。如果要求人们系安全带的法规会导致人们开车时更加鲁莽,那么我们就很难了解这个法规的影响究竟是好是坏,以及在交通事故死亡率不降反升的情况下,到底是要废除这一法规还是进一步完善它。

对于心理学家来说,理解因果推理(包括它的发展过程,人与动物之间的差异,以及它何时会出错)是理解人类行为的关键之一。经济学家也想知道人们为什么会做出各种行为,尤其是在做决策的过程中。最近,心理学家和哲学家共同利用实验方法来研究人们对因果关系的直觉(这属于实验哲学的研究范畴21)。一个很关键的问题在于,要理顺因果关系和道德评判之间的关系。如果有人在资助申请中杜撰数据并因此获得了资助,而其他诚实可敬的科学家们却因为资助资金有限而没有获得资助,那么我们能说是那个欺骗者导致他们没有获得资助吗?现在有两个问题:应该怪罪那个欺骗者吗?如果所有人都存在欺骗行为,那么我们对这件事的看法是否会发生改变呢?要了解人们是如何做出因果关系判断的,这不仅能帮助我们更好地理解人们的思维方式,还能帮助我们处理一些实际问题,比如解决分歧、提升教育和培训水平22以及保证陪审团的公正性。本书会告诉大家,虽然我们无法消除所有导致偏见和错误的因素,但可以更准确地发现这些因素并了解它们可能会带来的影响。