贝叶斯定理

闲话休提,现在是时候给你看看我最喜欢的数学公式了。下面我将要介绍的就是贝叶斯公式。为此,我要引入来自医学领域的第四个例子。

想象一下,化验结果显示你感染了埃博拉病毒,而你知道自己刚从尼日利亚度假归来。你自然会询问化验的可靠程度。别人告诉你,健康的人得到正确的化验结果的概率是 90%。你是不是应该开始写遗嘱了?

纯粹贝叶斯主义者的回答只有一个:不急。即使在受这种病毒影响最大的撒哈拉以南的非洲,感染埃博拉病毒的人也万中无一。所以你这个只在尼日利亚短暂停留过的人,感染这个病毒的可能性显然不足万分之一。我们可以将这个概率 ,它也叫作先验概率。

现在假设你得知化验结果为阳性,之后需要考虑的就是已知化验结果为阳性时感染埃博拉病毒的概率,我们将它记为 |,其中 这个符号表示化验结果为阳性。反之,我们用符号 来表示化验结果为阴性。

所谓的条件概率 | 是什么意思呢?概率论的基本公设假定这个条件概率与事件 的概率有如下联系:

换句话说,在已知化验结果为阳性的情况下感染病毒的概率,就是化验结果为阳性并且感染病毒的人在所有化验结果为阳性的人群中所占的比例。

值得指出的是,在今天,即使是最反对贝叶斯主义的统计学家也接受这个公设。实际上,我们可以把它当成条件概率的定义。跟所有定义一样,它不可能出错。然而,人们可能会怀疑这是不是条件概率的一个贴切(而有用)的定义,特别是人们还会考虑它是否跟自然语言一致,以及应该怎么用它来思考。纯粹贝叶斯主义者的信念就是,这个定义不仅接近自然语言中的说法,而且正是这个概念的正确思考方式。贝叶斯主义,就是将条件概率的语言作为所有知识的基础

跟随纯粹贝叶斯主义者的脚步,我们承认条件概率 | 的确描述了在已知化验结果为阳性的情况下感染病毒的概率。然而,你获知的数值并不是这个概率。你听到的 90% 这个数值,其实是当你没有感染埃博拉病毒时,化验结果正确的概率。换句话说,90% 这个数字是当你没有感染埃博拉病毒时,化验结果为阴性的概率,记为 | 指的是你健康的情况)。于是剩下的 10% 对应着在没有感染病毒时获得阳性结果的概率 |

要确定当获得阳性结果时你感染病毒的概率,我们需要证明并应用贝叶斯定理。为此,我们写出逆概率 | 的定义 | 。注意到了吗?这里的分子与条件概率 | 的定义中的分子是一样的!由此得出,两个事件同时发生的概率可以写成 |。这相当于感染病毒且化验结果为阳性的概率,等于先感染病毒,然后在已知感染病毒的情况下化验结果为阳性的概率。

我们几乎完成贝叶斯定理的证明了。现在只需要将上面的公式代入条件概率 | 的定义之中,就能得到本书介绍的知识哲学中最重要的公式,也就是贝叶斯公式。请花点时间仔细品味它形式上的优雅以及符号遵循的模式。

换句话说,要在化验结果为阳性的情况下确定感染埃博拉病毒的概率,只需要将感染病毒时化验结果为阳性的概率(这需要一点想象力)乘以感染埃博拉病毒的先验概率,然后除以化验结果为阳性的概率。

就像作为导论的第 1 章所说的,你需要知道的就只有乘法和除法!还有比这更简单的吗?

让这个公式如此难以理解的,当然并非其中必须用到的计算,而是如何解释其中的每一项,这些项至少在本章内简化过的例子中都可以解释。在考虑这些项的时候,很容易产生误解。我只能请你多花时间思考。