二、大数据特征

从“大数据”这个概念的词面上看,其是容量非常大的数据集合,但容量只不过是大数据特征的一个方面。如果只拘泥于考量数据量的大小,就无法深入理解其潜在价值。因为“用现有技术和方法难以管理”这样的状况,并不仅仅是由于数据量增大这一因素造成的。通过对计算机系统功能的扩展可以在一定程度上缓解数据量增大带来的困难。实际上,大数据真正难以应对的挑战来自数据类型多样、要求及时响应和数据的不确定性。因为数据类型多样使得一个应用往往既要处理结构化数据,同时还要处理文本、视频、语音等非结构化数据,这对现有数据库系统来说难以应付;而在快速响应方面,在许多应用中时间就是利益;在不确定性方面,数据真伪难辨是大数据应用的最大挑战。追求高质量数据是对大数据的一项重要要求,最好的数据清理方法也难以消除某些数据固有的不可预测性。

与传统的数据相比较,大数据具有四方面特征,即体量大、类型多、价值密度低和响应速度快。

(一) 数据体量大

从现有技术无法管理的数据量的现状来看,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。非结构化数据的超大规模增长,比传统结构化数据快10倍到50倍。当然,随着信息技术的进步,这个数值也会不断变化。如今,存储的数据量在急剧增长中,包括环境数据、财务数据、医疗数据、监控数据等,数据量不可避免地会转向ZB级别,数据量不断增长对处理、理解和分析数据提出更高要求。

(二) 数据类型多

随着传感器、智能设备以及社交协作技术的激增,各领域数据也变得更加复杂,不仅包含传统的关系型数据,还包含来自网页、互联网日志、搜索索引、社交媒体、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据,具有异构性和多样性的特点,没有明显的模式,也没有连贯的语法和句义,多类型的数据处理能力遇到新挑战。

(三) 数据价值密度低

随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度相对较低,存在大量不相关信息。挖掘大数据的价值如同沙里淘金,从海量数据中挖掘稀疏但珍贵的信息。因此需要对未来趋势与模式做可预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。

(四) 数据响应速度快

数据产生和更新的频率是衡量大数据的一个重要特征。当收集和存储的数据量和种类发生变化时,生成和需要处理数据的速度也在变化。这里,速度的概念不仅是与数据存储相关的增长速率,还应该动态地应用到数据流动的速度上。有效地处理大数据,需要在数据变化的过程中对它的数量和种类执行分析,而不只是在它静止后执行分析。处理速度快,时效性要求高,需要实时分析而非批量式分析,数据的输入、处理和分析得以连贯地处理,这是大数据区分于传统数据挖掘的显著特征。实时处理的要求,是区别大数据应用和传统数据仓库技术、BI(商业智能)技术的关键差别之一。面对大数据的全新特征,既有的技术架构和路线已经无法高效地处理如此海量的数据,而对于相关组织来说,如果投入巨大精力采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。