追求数量,还是追求速度

科学家一度认为人的大脑容量是固定的。但是伦敦大学医学院惠康基金会神经影像中心(Wellcome Trust Centre for Neuroimaging)的埃莉诺·马奎尔(Eleanor Maguire)教授通过研究发现,大脑本质上是有“弹性”的,其容量可以随着时间而改变。

这项研究追踪调查了79名计程车司机的学习进展,其中只有39名司机最终通过了考试。那些没有通过考试的人为自己找了很多的借口,比如说缺乏时间和金钱等,但学习如此庞大的信息体系难度不小却是关键因素之一。据伦敦城市网站显示,整个伦敦只有25000名计程车司机,换言之,每一条街道大约只有一个司机。研究显示,经过多年来对伦敦街道资料的学习,这些参与测验的司机大脑中下丘脑海马区的灰质有所增多。也就是说,为了储存必要的数据,这些司机确实新生了很多脑细胞,从而最终使他们变得更聪明。

然而,这些记忆能力的改善是需要付出代价的。据马奎尔教授另一研究显示,对这些拥有更大海马区的司机们来说,他们通过视觉信息学习新路线的能力下降了。

对计算机而言,优势通常需要牺牲其他方面来换取。储存大量的数据就意味着需要花费更长的时间进行处理。而储存的数据越少,得出结果的速度就越快,但是这些结果也就越没有根据。

拿计算机程序来说,商店里的计算机通过分析已售商品的销售数据,可以为以后的销售作出预测。如果计算机程序只能获取到季度销售数据,那么肯定会处理得很快,但是这些数据也许不够详尽,难以提供有效信息。商场经理可能清楚特定的产品在某个时间段内需求量大,但却难以制订出对每天或每小时的销售情况产生影响的价格决策或者产品布局决策。相反地,如果计算机程序能够记录每分钟的销售数据,并通过这些数据分析历史销售情况,那么就有了更精细的数据资料,可以更好地预测未来的销售。作者对这个问题的理解稍欠深刻和全面。表面看起来数据越多,粒度越细越好,但实际计算的时候不一定如此,因为粒度细的数据往往包含更多的噪音。昨天销售了250斤糖炒板栗是有价值的数据,但是昨天下午2:50恰好有一个顾客买了两斤半的板栗,是多种因素结合的偶然。如果你每天下午2:50都眼巴巴等着一个大主顾,那就真要为自己的智商着急了。实际上,我们在为700多家电子商务和资讯媒体提供用户下一时刻喜欢看什么、买什么的推荐服务所积累下来的经验显示,很多时候利用品类的信息往往比单品的信息预测更准确。数据的粒度和噪音是两个矛盾体,其带来的复杂挑战,决非作者想得那么简单。——译者注不过,这需要花费更多的时间。而且,由于数据庞大,程序也许不能一次就把所有的数据处理完,而只能对其中的一部分数据进行处理。

效率的力量

令人惊讶的是,在伦敦拥有执照的计程车司机能够记住整个伦敦市的地图(包括查令十字街方圆10公里的地方),而不需要实际的地图和GPS导航。

如果司机不必时刻紧握方向盘并注意路面情况,也无须快速判断行驶路线的话,查看地图也不失为一个可行的办法。在慢节奏的国家,司机也许会在一开始就计划好一条线路,然后在必要时停车,随时对线路作出调整。但问题在于,在伦敦拥挤的街道上,司机绝不会有时间慢慢地计算、再计算。因此,司机必须记下整个伦敦的地图。计算机系统差不多一直在做这件事,即在处理大量数据的基础上输出结果:计算机系统将所有的数据储存在一个存储体系中,有时全部储存在记忆体系中,有时分散储存于许多不同的物理系统中。我们会在接下来的几章对此做详细介绍,还包括一些快速分析数据的其他途径。

幸运的是,如果你想要脑容量更大,记住伦敦城市地图并不是扩大你大脑海马区的唯一方式。另外一项研究带来的好消息是,锻炼身体也可以使你的脑容量变大。随着年龄的增长,大脑会随之萎缩,通往记忆的通道也会受损。该研究选取120名老人做实验,发现锻炼身体使他们的海马区扩大了2%,而海马区与改善记忆功能密切相关。换言之,保持大脑足够的血液流通能防止我们变迟钝。因此,如果你想保持聪明才智,锻炼身体吧!

然而,和人类不同,计算机不可能通过到健身房锻炼就增强记忆储存能力。对计算机的记忆存储而言有三种选择:

●扩大内存容量;

●通过调度让需要处理的数据进出存储系统;

●压缩数据。

很多数据是多余的。回想一下你刚写的那句话,或者刚做的一些大数字的乘法。计算机通过压缩重复的字母、单词甚至整个短语,从而节省出很多空间。

扩大计算机的记忆存取能力代价十分昂贵。一般来说,记忆存取越快就越昂贵。一项消息显示,随机存取存储器(RAM)的存取速度是磁盘存储器的10万倍,但价格也贵了100倍。

不仅记忆存取本身价格不菲,记忆存取量增加的话,随之而来的其他花费也不低。一台计算机一般只能装配一定量的记忆芯片,而且每个记忆棒也只能容纳一定量的记忆芯片。电源和制冷装置的容量也同样需要考虑。电子线路越多,消耗的电能也就越多;消耗电能越多,产生的热量越多。热量需要散发,而这一过程又需要更多的电能(并产生更多的热)。这些因素综合起来就使看似简单的扩大记忆容量的任务变得相当复杂了。

或者,计算机也可以仅仅使用原始记忆存储器,对储存的必要信息进行内外交换。比方说,计算机并不需要一次查看所有可获取的交通事故和股票价格数据,因此计算机能在加载昨天数据的同时,替换掉前天的数据,依此类推。这个方法的问题在于,如果你要找出维持数天、数周甚至是数年之久的模式,那么进出交替所有数据就非常耗时,而且不容易总结出模式。

与机器相比,人类不需要很多能量就可以让大脑发挥更多作用。大脑在“持续地吸吮大量的能量”,但是这些能量与计算机相比简直微不足道。“一个成年人大脑运转功率大约只有12瓦特,是一个标准的60瓦灯泡功率的1/5。”相比之下,“IBM公司的沃森(Watson)超级计算机虽然击败了《危险边缘》(Jeopardy!)节目的冠军,但它需要90个IBM Power 750服务器支持,每个服务器功效大概是1000瓦。”而且,每个服务器重约54千克。

因此,说到大数据,其挑战之一是使计算机变得更智能,挑战之二是使其变得更有效率。

计算机战胜人脑?

2011年2月16日,IBM打造的“沃森”超级计算机在《危险边缘》节目中击败了两名冠军选手,赢得了77147美元。事实上,为了奖励“沃森”在人机大战中的获胜,它得到了100万美元的奖励。但是“沃森”真的和节目中的其他两位选手一样聪明吗?“沃森”能独立思考吗?

研发、建造“沃森”大约花费了3亿美元的研发投资——它拥有2亿页的存储容量以及大约2800个处理器,毫无疑问,回答《危险边缘》的问题,“沃森”非常在行。但很难说“沃森”的智商和电影《2001太空漫游》(2001: A Space Odyssey)中高智能计算机HAL表现出的智商是一样的。“沃森”没法理解节目中的另一个选手肯·詹宁斯(Ken Jennings)在节目中给出的最终答案,也无法像肯·詹宁斯一样玩冷幽默——肯·詹宁斯的“战败宣言”写道:“我,代表我自己,欢迎这位新的计算机霸主”。更重要的是,“沃森”无法听懂人类语言,相反地,“沃森”只能以书面文本的形式处理《危险边缘》中提出的问题。

计算机如何听懂人类语言

为什么“沃森”无法理解人类的语言呢?因为“沃森”的设计者认为,要创建一个计算机系统使沃森能正确回答《危险边缘》的问题已经够复杂的了,而一旦把理解人类语言这个问题再引入进来,这种复杂度还要再加深一层。

虽然在识别人类语言这一问题上,我们已经取得了重大进展,但是离完美解决这一问题还有很长的路要走。正如查尔姆斯理工大学(Chalmers Institute of Technology)的马库斯·福斯伯格(Markus Forsberg)所指出的一样:理解人类语言可不是件简单的事情。

语言看上去至少满足大数据的一些要求。通过分析无数的语言,计算机可以建立起识别模式,而当计算机再次碰到该语言的时候能够识别它。但计算机在试着识别语言的时候仍面临着很多挑战。正如福斯伯格所说,我们不仅使用语言的真实声音来辨别它,而且还运用了大量的语境知识来理解它。尽管单词“two”和“too”的发音相同,但它们的意义大不相同。而这只是识别语言的众多复杂性的开端而已。还有其他复杂性因素,例如我们说话的语速、口音、背景声音和语言本身的连贯性——我们不会每说一个字就停一下,因此把单个的词转换成文本来理解并不是解决语言识别问题的可取的方法。

即使是组建文字也并非易事,看看以下由福斯伯格提出的例句便略知一二。这些例句读音相近,意思却有天壤之别。

●It’s not easy to wreck a nice beach;

●It’s not easy to recognize speech;

●It’s not easy to wreck an ice beach.

归功于现代计算机的能力和速度,加之先进的模式识别方法,计算机正不断改进。微软研发组织的管理者表示,公司研发的最新语音识别技术比之前的版本精准度提高了30%,换言之,旧版本每4~5个字中有1个字会识别错误,而新版本每7~8个字才会出现1个错误。模式识别也会常常用于机器翻译等任务,不过用过谷歌翻译的用户都明白,这些技术仍需不断完善。

同样地,计算机要想能够创作具有原创价值的专著,还有一段很长的路要走。有趣的是,人们一直在做这样的尝试。在最近的一项实验中,一位程序员创建了一系列的虚拟程序,来模仿猴子在键盘上随意打字,目的则在于回答“猴子是否可以再创莎翁作品”这个经典问题。不过计算机正在不断地变得更加聪明,如今甚至聪明到可以进行自我操纵的程度。