- 白话大数据与机器学习
- 高扬 卫峥 尹会生等
- 743字
- 2023-01-30 16:47:46
2.1 什么是数据
数据是什么?这几乎成为一个人们熟视无睹的问题。
有不少朋友脑子里可能会直接冒出一个词“数字”——“数字就是数据”,我相信会有一些朋友斩钉截铁地说。
一些朋友会在稍作思考后回答“数字和字符、字母,这些都是数据”。
图2-1 例1
图2-2 例2
不知道你现在是不是正在纠结哪个回答更正确,抑或第二个回答更合理一些,这里先放一放。先看下面这组例子(图2-1):
这里有6个0,请问它是数据吗?
再看这样的例子(图2-2):
这里有4个1和2个a,那么它是数据吗?
也许你可能会问,“这到底是什么意思?”不错,这就是我们在认识数据的过程中存在的一个很要命的问题,几乎在我们出发时就拦住了我们的去路。
我们回过头再想想刚才的问题可能会得到比较令自己和他人信服的回答:“承载了信息的东西”才是数据,换句话说,不管是石头上刻的画,或者是小孩子在沙滩上歪歪扭扭写出的字迹,或者是嬉皮士们在墙上的涂鸦,只要它表达一些确实的含义,那么这种符号就可以被认为是数据。而没有承载信息的符号就不是数据。这个观点似乎看上去要比前面的回答理性得多,也科学得多,但是这个观点真的不需要补充了吗?
我们假设这两个例子都有一些比较特殊的场景,假设第一组里出现的6个0其实是时分秒的简写,000000表示00点00分00秒,而如果写作112349则表示11点23分49秒,那么它是不是也是数据呢?假设第二组出现的4个1和2个a其实是一组密码,4个1代表一个被约定的地点,aa代表一种被约定的事件,那这组数字和字母的意义也有了相应的解读,那么它是不是也是数据呢?
不难看出,一些符号如果想要被认定为数据,那就必须承载一定的信息。而信息很可能是因场景而定,因解读者的认知而定,所以一些符号是不是可以被当做数据,有相当的因素是取决于解读者的主观视角的。不知道这个观点你是不是认可,总之这点很重要。