一、大数据定义

随着大数据的潜在价值被国际社会普遍关注,其研究不断深入,应用不断拓宽,已成为人们获得新认知、创造新价值的源泉。但不论是学界还是企业、政府,对于“什么是大数据”的问题都没有给出公认的答案,大数据定义呈现多样化的趋势,一时难以达成共识。本质上,大数据不仅意味着数据的大容量,还体现了一些区别于“海量数据”和“非常大的数据”的特点。从宏观世界角度来讲,大数据是融合物理世界(physical world)、信息空间(cyberspace)和人类社会(human society)三元世界的纽带,因为物理世界通过互联网、物联网等技术有了在信息空间中的大数据反映,而人类社会则借助人机界面、脑机界面、移动互联等手段在信息空间中产生自己的大数据映像。 Li Guojie,Cheng Xueqi,“Research Status and Scientific Thinking of Big Data”,Journal of Software,vol.27,no.6,2012,pp.647-657;Wang Yuanzhuo,Jin Xiaolong,Cheng Xueqi,“Network Big Data:Present and Future”,Chinese Journal of Computers,vol.36,no.6,2013,pp.1125-1138.从信息产业角度来讲,大数据还是新一代信息技术产业的强劲推动力。所谓新一代信息技术产业,本质上是构建在第三代平台上的信息产业,主要是指大数据、云计算、移动互联网(社交网络)等。 W.B. Arthur,“The Second Economy”,2011,http://www.images-et-reseaux.com/sites/default/files/medias/blog/2011/12/the-2nd-economy.pdf.一些研究机构早期对大数据的定义主要集中在属性定义、比较定义和体系定义三个方面。

(一) 属性定义(Attributive Denition)

国际数据中心是研究大数据及其影响的先驱,其在2011年的报告中定义了大数据 J. Gantz,D. Reinsel,“Extracting Value from Chaos”,IDC iView,2011,pp.1-12.:“大数据技术描述了一个技术和体系的新时代,被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值。”这个定义刻画了大数据的4个显著特点,即容量(volume)、多样性(variety)、速度(velocity)和价值(value),而“4Vs”定义的使用也较为广泛。类似的定义也出现在2001年IT分析公司META集团(现在已被Gartner并购)分析师道格·莱尼(Doug Laney)的研究报告中 J. Manyika et al.,“Big Data:The Next Frontier for Innovation,Competition,and Productivity”,McKinsey Global Institute,2011.,他注意到数据的增长是三维的,即容量、多样性和速度的增长。尽管“3Vs”定义没有完整描述大数据,但Gartner和多数产业界巨头如IBM和Microsoft的研究者们仍继续使用“3Vs”模型描述大数据。

(二) 比较定义(Comparative Denition)

2011年,世界领先的全球管理咨询公司麦肯锡的研究报告中将大数据定义为“所涉及的数据集规模已超过了传统数据库软件捕获、存储、管理和分析数据能力” J. Manyika et al.,“Big Data:The Next Frontier for Innovation,Competition,and Productivity”,McKinsey Global Institute,2011.。这是一种被故意设计成主观性的定义,并且是一个关于多大的数据才能被认为是大数据的可变定义,没有描述与大数据相关的任何度量机制,但是在定义中包含了一种演化的观点(从时间和跨领域的角度),说明了什么样的数据集才能被认为是大数据。

(三) 体系定义(Architectural Denition)

美国国家标准与技术研究院(NIST)则认为:“大数据是指数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力,需要使用水平扩展的机制以提高处理效率。” M. Cooper,P. Mell,“Tackling Big Data”,NIST,2012.从科学体系和学科层面而言,大数据可进一步细分为大数据科学(big data science)和大数据框架(big data frameworks)。大数据科学是包括大数据获取、调节和评估技术的研究;大数据框架则是在计算单元集群间解决大数据问题的分布式处理和分析的软件库及相应的算法。一个或多个大数据框架的实例化即为大数据基础设施。

因此,随着大数据概念的界定,数据仓库、数据安全、数据分析、数据挖掘等针对大数据商业价值、管理价值和科学研究价值的利用正逐渐成为各行业人士争相追捧的利益焦点。根据大数据融合物理世界、信息空间和人类社会三元世界的纽带的表象,可从大数据科学和工程的共同问题和关联性角度,针对大数据容量、数据结构以及分析处理效能考量给出定义。

综上,大数据具有数量巨大、种类繁多、增长极快、价值密度低的复杂特点,简而言之,是“大而复杂”的数据集。前述每一种定义均反映了大数据的特定方面,一时提出科学、严谨、简要的定义并要达成共识非常困难。一种合乎逻辑的选择是接受所有的大数据定义,作为信息资产,大数据的价值需要运用全新的处理思维和解译技术来实现。