译者序

都说互联网行业擅长“造”概念,把一个早已存在的事物用一个新词去包装,仿佛完成了一次创新。大数据(Big Data)是近些年最热门的话题之一,在更新迭代如此迅速的互联网领域,这个概念算得上“经久不衰”了。这是为什么呢?我想搞清楚这个问题。要知道,利用数据进行分析是人类生产生活实践中一直都在使用的方式。

何况这个技术一点也不新。仅就工具而论,这两年火起来的Apache Flink,实际上第1版的发行时间比Apache Spark还要早上几年。大数据平台中最重要的工具Hadoop,开发者们在十几年前就完成了基本框架的开发,谷歌的“老三篇”论文发布更要在这之前。现在人人都在用Hive做数据仓库,但是20世纪90年代没有Hive时,人们照样用类似的思想,用不一样的工具,做着同样的事情。哪怕是当前最热、最新的人工智能技术,也早在几十年前就开始了酝酿。而这一切,早在“大数据元年”到来之前,就在悄悄地发生着。

所谓大数据时代,除了带来更多、更丰富的数据,还带来了什么呢?直到我读了这本书,才算是有了一个初步清晰的答案。随着数据量的增大、数据流转速度的增快、数据多样性的增加,人们重新意识到了一件事——数据即信息,而对信息的处理可以将其转变为知识,运用知识就可以获得价值。在数据量不大的过去,人们可获取的知识是片面的,产生的价值也是有限的。在通信、网络、存储等各方面技术都得以发展的今天,人们获得了前所未有的数据量和计算能力。在传统企业中,人们更多地凭借经验来做出决策,数据只是辅助;而在创新型企业中,人们可以彻彻底底地依靠数据驱动业务,进一步还会发生公司组织方式的转变。这便是产业数字化转型的核心。

介绍大数据与人工智能技术的书有很多。有的介绍平台架构,有的分享最佳实践,有的深入源码分析。很多书都有着深刻的洞见,并且十分实用。但是对于初入这个行业的人来说,若不了解它们如何影响人们认知世界的方式,很容易陷入“只研究工具如何使用”的沼泽中。本书不仅对大数据与人工智能有一个综述性的介绍,也提供了多个不同场景中的用例。相信读者读完本书后,会有一种豁然开朗的感觉:“原来人工智能技术在大数据中的应用就是这样的啊!”

本书由赵运枫与黄伟哲共同翻译,因个人水平有限,书中难免有疏漏之处,望广大读者予以指正。

黄伟哲

于成都