- 白话大数据与机器学习
- 高扬 卫峥 尹会生等
- 1772字
- 2023-01-30 16:47:49
3.1 排列组合的概念
3.1.1 公平的决断——扔硬币
排列组合是本书介绍的第一个概率论概念,也是在高中学过的一个概率学的入门概念。概念记不清了也不要紧,现在回忆一下在中学学过的排列组合都有哪些经典问题来着。
首先是扔硬币(图3-2)。
图3-2 排列组合的经典场景——扔硬币(见彩插)
如果一个匀质的硬币——也就是扔出正面朝上和反面朝上各有一半可能性的硬币,我们连扔3次,产生3次朝上的可能性有多大?
这个计算应该不算难,首先每一次扔出,每一个面的可能性是一样的,即正面1/2的可能性,反面也是1/2的可能性。
那么第一次扔,正面朝上是1/2的可能性,反面朝上也是1/2的可能性。
在第一次正面朝上的情况下,第二次扔,正面朝上的可能性仍然是1/2,反面朝上也是1/2的可能性。(即正正,正反。)
而在第一次反面朝上的情况下,第二次扔,正面朝上的可能性仍然是1/2,反面朝上也是1/2的可能性。(即反正,反反。)
也就是说连扔两次,两次结果为“正正”、“正反”、“反正”、“反反”的可能性都是完全一样的,各是1/4。
以此类推,连扔3次,3次都是正面朝上的可能性应该为1/8,即概率为1/8或12.5%。也就是说,3次朝上分别为“正正正”、“正正反”、“正反正”、“正反反”、“反正正”、“反正反”、“反反正”、“反反反”。这几种的可能性是一样大的(图3-3)。
图3-3 正反面朝上的可能性
我们可以想想在生活中的例子,扔硬币和扔骰子很多时候都作为大家凭运气讲公平的一种裁决手段,如两个人打赌赌单双数或者大小数,4个人打麻将决定抓牌位置,我们都会借助硬币或者骰子这样的几率产生均等的工具来将公平进行到底,当然那些手法出众或者出老千的情况除外。
在影视作品里曾看到过一些赌徒为了让自己扔骰子掷出6点的概率增加而在6点的正对面放置铅弹一类的重物,使得骰子的6个面中6点被掷出的几率远高于其他几面(图3-4)。而一旦被人识破,该赌徒则会被其他赌徒殴打甚至是杀害。显然,在事先得知骰子被做了如此手脚之后,是不会再有兴趣和该赌徒博弈的,因为掌握这种严重不对称信息的人会成为不败的赢家,因为这种机会的均等性被破坏了,造成极大的“不公平”。
图3-4 “不公平”的骰子
如果一个随机试验所包含的单位事件(就是刚才说的3次朝上分别为“正正正”、“正正反”……这其中每一种情况都是单位事件)是有限的,且每个单位事件发生的可能性均相等,则这个随机试验叫做拉普拉斯试验,这种条件下的概率模型就叫古典概型。古典概型也叫传统概率,该定义是由法国著名数学家拉普拉斯(Laplace)提出的。
这种使用穷举有限多个可能性,并且根据可能性在所有事件中所占比例求出可能性的问题,就可以使用排列组合的方式来进行计算。
3.1.2 非古典概型
上述“古典概型”的特点是“包含的单位事件是有限的,且每个单位事件发生的可能性均相等”。单位事件指的就是抛出一个“正正正”或者“正正反”这种一个确定的试验结果的事件。可能性均等就是“正正正”、“正正反”……一共8种情况,每种情况产生的机会是一样的。
那么是不是也有不符合古典概型的反例呢?也就是说“包含的单位事件不是有限的或每个单位事件发生的可能性不均等”则不算是古典概型,有这样的例子吗?
有的。首先,刚刚提到的赌徒改造骰子的例子就是“每个单位事件发生的可能性不均等”的例子,那么这种情况下就不能使用穷举、排列组合的方法进行计算,算出来也和试验结果不一致;再者,还是使用骰子掷数的例子,用两个骰子来掷。因为每个骰子的掷出范围为1~6个点,所以两个骰子扔出的范围是2~12个点。但是需要注意,虽然骰子掷出每个点的机会是一样的,但是2~12这11个点产生的可能性不是一样的。两个骰子都扔出1才产生2,所以概率为1/36,同理12的概率也是1/36。但是6就不一样了,两个骰子的点数可以为1和5、2和4、3和3、4和2、5和1,每种情况的概率都是1/36,相加得5/36。所以对于两个骰子扔出2~12个点,每个点产生的概率可就不一样了,那每个点的概率必然不能是1/11。好在产生2~12这11个点的每种情况中,各自是由两个古典概型组成的,还能分解以后各自求解(图3-5)。
图3-5 两个骰子掷出的点数
而“包含的单位事件不是有限的”这种例子其实也很多,例如,我想知道我每天出门碰到熟人的概率。这种问题用古典概型也是不能解决的,所有单位事件的定义非常复杂,每个单位事件也不能通过类似扔骰子这么简单的事情就描述清楚,还有时间、地点等各种复杂的情况,当然是没有办法用古典概型来获解的。