2.2 什么是信息

说到这里,我的同事娟娟非常认真且煞有介事地跟我说:“我觉得数字、字母、图像,这些都是数据,跟信息不信息的没什么关系。”看着她认真地跟我抬杠,我觉得蛮好,至少在认识数据过程中积极思考只有好处。

信息一词,在没有学术背景的情况下其实有着很多解释,例如,广播中的声音、互联网上的消息、通信系统中传输和处理的语音对象,甚至是小区和校园的消息看板(图2-3),也就是人类社会传播的一切内容。

图2-3 信息的表现形式

1948年,数学家香农(Claude Elwood Shannon)在题为《通信的数学理论》的论文中指出:“信息是用来消除随机不定性的东西”。这句话如果举个例子说明,大概可以想象这样一个场景(图2-4)。

图2-4 场景1

我说了两句话:“我今年33岁。”,“我明年34岁。”

那么第一句话如果是为了向不了解我的人介绍我的年龄而可以算作信息,第二句话则不是信息。至少你会觉得说了第一句以后,后面这句简直就是废话,因为从第一句话完全可以推导出来。

再如,某一天巴西足球队和中国足球队进行了比赛。

结果第二天张三告诉笔者,“昨天巴西队赢了。”

而后李四告诉笔者,“昨天中国队输了。”

再而后王五告诉笔者,“昨天的比赛不是平局。”(图2-5)

图2-5 场景2

前提是只要他们都是说实话的人,那么对于我来说,也就只有张三的话能算信息,李四和王五说的则不能算作信息。甚至连张三说的“昨天巴西队赢了”这句话是否能够被算作信息,我们都要表示怀疑,因为这也有点“废话”的意味——但凡对足球运动有点认识的人都几乎可以认定,即便你不告诉我昨天巴西队赢了,我也能猜个八九不离十,因为可能性实在是太大太大了,大到几乎是一定的,几乎是毋庸置疑的。国足的粉丝们请放下手中的臭鸡蛋和烂西红柿,听我把例子讲完。

现在对信息是什么清晰多了吧?我们可以粗略地认为,信息就是那些把我们不清楚的事情阐明的描述,而已经明确或者知晓的东西让我们再“知晓”一遍,这些被知会的内容就不再是信息了。这个概念是很有用的,我们后面在讲信息论的时候也会再做定量的说明,现在只做一个定性的了解。

数据和信息是我们在数据挖掘和机器学习领域天天要打交道的基础,也是我们研究的主要对象。所以对数据和信息有一个比较一致性的认识对后面咱们讨论问题是非常有好处的。