- 从掷骰子到阿尔法狗:趣谈概率
- 张天蓉
- 4446字
- 2021-03-30 17:57:31
3.频率学派和贝叶斯学派
从历史的角度看,概率起源于抛硬币、掷骰子之类的赌博游戏,因此,概率最早便被定义为多次试验中某随机事件出现的频率的极限,这也就是为什么我们在本书的前面经常提到“频率”这个词。这个词汇在概率论中使用时,与在物理中使用时的更广泛的含义有所不同,大多数情况下仅仅特指这种与古典概率定义相关的“频率”。
将概率定义为事件多次重复后发生的频率的极限,这是古典概率观,是后来被称之为“频率学派”的观点。然而,如此定义概率,只能代表我们使用这个名词的情况之一。有很多时候,概率无法用多次试验得到。比如说,人们可以估计某一天北京下雨的概率,但这是无法进行试验的;又比如,加利福尼亚州某年某月某日地震的概率,也无法用多次重复来验证。又比如说,某个国家研制的导弹,如果谈到命中1000千米之外的目标的概率,在原则上是可以用重复试验来估计和证明的,但事实上不会这样做,因为花费太昂贵了。
从上面所举的几个实例可见,很多时候,概率一词所描述的并不是“对随机事件重复的频率”,而更像是对某种“不确定性”的度量。
一个事件的概率值通常以一个0到1之间的实数表示,是对随机事件发生可能性的度量。不可能发生事件的概率值为0,确定发生事件的概率值为1。大多数实际事件的概率值都是0与1之间的某个数,这个数代表事件在“不可能”与“确定”之间的相对位置。事件的概率值越接近1,事件发生的机会就越高。
由于对概率定义的差异及哲学上的分歧,另一种概率统计的派别逐渐兴起,即站在频率学派对立面的贝叶斯学派。两派之间的争论一直贯穿于概率及统计的发展历史中。
当年,贝叶斯研究过一个“白球黑球”的概率问题。概率问题可以正向计算,也能反推回去。例如,盒子里有10个球,分别为黑白两种颜色。如果我们知道10个球中有5个白球和5个黑球,那么,如果从中随机取出一个球,这个球是黑球的概率为多大?问题不难回答,当然是50%!如果10个球是6个白球4个黑球呢?取出1个球为黑球的概率应该是40%。再考虑复杂一点的情形:如果10个球中2个白球8个黑球,现在随机取2个球,得到1个黑球1个白球的概率是多少呢?10个球取出2个的可能性总数为10×9=90种, 1个黑球1个白球的情况有16种,所求概率为16/90,约等于17.5%。因此,只需进行一些简单的排列组合运算,我们可以在10个球的各种分布情形下,计算取出n个球,其中m个是黑球的概率。这些都是正向计算的例子。
不过,当年的贝叶斯更感兴趣的是反过来的“逆概率问题”:假设我们预先并不知道盒子里黑球白球数目的比例,只知道总共是10个球,那么,如果随机地拿出3个球,发现是2个黑球1个白球。逆概率问题则是要从这个试验样本(2个黑球1个白球),猜测盒子里白球黑球的比例。
也可以从最简单的抛硬币试验来说明“逆概率”问题。假设我们不知道硬币是不是两面公平的,也就是说,不了解这枚硬币的物理偏向性,这时候得到正面的概率p不一定等于50%。那么,逆概率问题便是试图从某个(或数个)试验样本来猜测p的数值。
为了解决逆概率问题,贝叶斯在他的论文中提供了一种方法,即贝叶斯定理:
后验概率=观测数据决定的调整因子×先验概率
上述公式的意义,指的是首先对未知概率有一个先验猜测,然后结合观测数据,修正先验,得到更为合理的后验概率。“先验”和“后验”是相对而言的,前一次算出的后验概率,可作为后一次的先验概率,然后再与新的观察数据相结合,得到新的后验概率。因此,运用贝叶斯公式有可能对某种未知的不确定性逐次修正概率,并得到最终结果,即解决逆概率问题。
有关贝叶斯定理的论文,直到贝叶斯去世后的1763年,才由朋友代为发表。后来,拉普拉斯证明了贝叶斯定理的更普遍的版本,并将之用于天体力学和医学统计中。
也许贝叶斯当初对他自己这个定理的意义认识不足,恐怕也没有料到由此而启发人们以一种全新的思考方式来看待概率和统计,并进而发展成所谓“贝叶斯学派”【17】。
前面介绍过的大数定律和中心极限定理,都是基于多次实验结果的经典概率观点,属于频率学派。由于历史的原因,概率及统计的教科书,也基本上是以频率学派观点为主流观点而写成的。
频率学派和贝叶斯学派两大极端派别的争论焦点涉及“什么是概率?概率从何而来?”等本质问题。在历史上,贝叶斯统计长期受到排斥,受到当时主流的数学家们的拒绝。然而,随着科学的进步,贝叶斯统计在实际应用上取得的成功慢慢改变了人们的观点。贝叶斯统计慢慢地受到人们的重视,人们认为它的思路更为符合科学研究的过程以及人脑的思维模式。目前贝叶斯概率已经成为一个热门研究课题。在机器学习以及量子力学的诠释等领域都有应用。
简单总结频率学派与贝叶斯学派的差异,可归结为对如下几个问题的答案:
(1)什么是概率?概率如何定义?
(2)何谓主观概率、客观概率?概率是主观的,还是客观的?
(3)如何看待和使用模型参数?使用条件概率,还是边缘概率?
(4)不确定性范围的意义是什么?使用置信区间,还是可信范围?
上述问题中,前两个涉及的多是两派观点的哲学层面,后面两个有关计算方法。因为看待世界的观点不一样,试图用以描述世界的计算方法也有所不同。在以下几节中,我们将通过一些具体例子,来说明两个学派的异同点。
概率到底从何而来?概率的物理本质是什么?这个问题的答案,实际上是取决于产生概率的物理系统的本质。
这里首先借助“十门问题”对概率本质进行粗浅的思考。问题中的物理系统包含10道门,其中1道门后有汽车,9道门后是羊。在此系统中,“有汽车”这个事件的概率P(有车),有其客观的物理意义:对那道有车之门,其概率为1, P(有车)= 1,其余9道门的 P(有车)=0。但这个客观事实只有主持人知道,参赛者是不知道的,参赛者只能猜测这个概率。交换后的概率是多少?上一节中介绍了两种答案:玛丽莲为代表的主流观点认为交换后的概率是9/10,而大多数人的直觉答案认为交换后的概率仍然是1/2。事实上,这两种观点所谓的概率,9/10或1/2,都只是他们的主观猜想,没有任何物理本体与这两个数值相对应。两种观点不过是反映了两种不同的主观猜测和推断方法。
两种方法都使用概率均分的假设。因此,他们第一次判定的结论是相同的:在10道门中,每道门有车的概率:P(有车)均为1/10。如此判定之后,两种推断方法产生了分歧:
(1)玛丽莲为代表的主流。认为参赛者选中那道门的概率不再改变,永远为1/10,其余的为9/10,在其他剩余门中均分。因此,后来,每当主持人打开1道有羊的门,其余门的概率发生变化但第一次选定门的概率不变。最后得到结论,如果交换的话,概率从1/10增加到9/10!
(2)反对主流的观点。认为选中那道门的概率与其选中其他门的概率同样变化。因此,最后总是2选1,概率为1/2,即换不换无所谓,最后概率都是1/2!
这两种推理过程中所说的“概率”(1/10、9/10、5/10等),都是推理之人的主观概率,与物理客观事实:汽车所在的真实地点,没有什么关系。不过,尽管两种推理方法都是主观的,但数学家们的分析以及玛丽莲的实验结果说明,用第一种(主流)的推断方法来猜测和逼近“客观概率”更有优势。
蒙特·霍尔问题上的两种观点,并不等同于“频率学派与贝叶斯学派”的两派,但这个例子引发我们思考概率的本质,认识到概率有其客观性,也有其主观性。这是频率学派与贝叶斯学派的重要分歧之一。
简单地说,频率学派与贝叶斯学派探讨“不确定性”的出发点与立足点不同。频率学派试图直接为产生“事件”的物理本质建立模型,比如频率学派主张不断地抛掷硬币,是想要从抛掷次数增大时正面朝上次数的变化,来得到反映硬币正反偏向性的某个物理参数p。而贝叶斯学派认为,也许根本不存在这个固定的物理参数p,反之,数据是比“物理本体”更为重要的真实存在,人们只能通过“观察者”得到的数据来进行猜测和推断。所以,他们想要为这个“猜想推断”过程中的数据变化建模,建模方法便是使用贝叶斯公式将模型参数不断更新。因此,就实用而言,贝叶斯学派也需要一定程度的反复试验,频率学派也照样使用贝叶斯公式。但是,他们对使用这些方法到达何种目的的观点有差别,对物质世界本体的哲学观不同。
换言之,频率学派试图描述的是事物本体,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新,是世界观的差异影响到方法上的差异。例如,对抛硬币过程而言,频率学派更为强调“多次试验”,贝叶斯学派则强调探索更新实验结果的方法。下面我们再从抛硬币的例子看待两学派的差异。
简单而言,如果某个贝叶斯学者抛硬币,他首先会对硬币给出一个正反均匀的先验概率(0.5),这是来自于他的直观猜想。之后,比如说抛了100次之后,他发现:结果中居然只有20次是正面朝上!于是,这100次新的观测结果,影响了他原有的信念,他开始怀疑这枚硬币究竟是不是均匀的?于是,利用贝叶斯公式,他用逻辑推断的方式更新了他对这枚硬币不确定性的知识,从0.5出发,得到一个新的猜想值。然而,对一个频率学派的实验者而言,他不需要什么“先验猜想”,实验了100次,其中20次正面朝上,那么他认为正面出现的概率就可以近似为20/100,即0.2。
也就是说,从频率学派观点出发的观察者,研究抛硬币的策略很简单:多次试验,不停地抛,目的是要用试验得到的正面出现的频率来逼近概率p,如图2-3-1所示。由图中曲线可见,实验描述的不是一个公平硬币,因为从多次试验的结果得到的极限,正面出现的概率是0.6。
频率学派给硬币这个物理实体建立了一个参数是p的简单模型,然后以多次试验来得到p的值。贝叶斯学派的模型不是针对硬币本体,而是针对观测者自己对硬币特征的“信任度”。比如说,有命题A:“这是一个公平硬币”,观测者对此命题的信任度用P(A)表示。如果P(A)=1,表示观测者坚信这个硬币是“正反”公平的;P(A)越小,观测者对硬币公平的信任度越低;如果P(A)=0,说明观测者坚信这个硬币不公平,比如说,可能两面都是“正面”,是一个忽悠人的“正正”硬币。为了叙述方便起见,用B表示命题“这是一个正正硬币”,并且忽略其他可能性,因此P(B)=1- P(A)。
图2-3-1 频率的极限是概率
下面我们看看贝叶斯学派如何根据贝叶斯公式来更新他的“信任度”模型P(A)。
首先,他有一个“先验信任度”,比如P(A)=0.9,0.9接近1,说明他比较偏向于相信这个硬币是公平的。然后,抛硬币1次,得到“正”(H)。他根据贝叶斯公式,将P(A)更新为P(A|H):
P(H|A)P(A)=0.5×0.9=0.45
更新后的后验概率为P(A|H)= 0.82,然后再抛一次又得到正面(H),两次正面后新的更新值是P(A|HH)=0.69,3次正面后的更新值是P(A|HHH)=0.53。如此抛下去,如果4次接连都得到正面,新的更新值是P(A|HHHH)=0.36。这时候,这位观察者对这枚硬币是公平硬币的信任度降低了很多,从信任度降到0.5开始,他就已经怀疑这个硬币的公平性,接连4个正面后,他更偏向于认为该硬币很可能是一枚两面都是正面的假币!
如上可见,贝叶斯理论认为,虽然有时候概率确实能够通过大量重复实验获取的频率测得,但是这并非频率的本质。概率的概念应该被扩展为对一个命题信任的程度,因而,人们针对频率学派认定的“客观概率”,提出了主观概率的概念。