1.1 大数据的相关概念
大数据是指在一定时间内无法用常规软件工具对其内容进行抓取、处理、分析和管理的数据集合。大数据一般会涉及两种以上的数据形式,数据量通常是100TB以上的高速、实时数据流,或者从每年增长速度快的小数据开始。
1.大数据的特征
大数据有4个特性,简称4V:Volume、Variety、Velocity、Value,如图1.1所示。
图1.1 大数据的4V特征
(1)Volume(规模性):大数据的特征首先体现为“数据量大”,存储单位从过去的GB到TB,直至PB、EB。随着网络及信息技术的高速发展,数据开始爆发性增长。社交网络、移动网络、各种智能终端等,都成为数据的来源,企业也面临着数据量的大规模增长,IDC的一份报告预测称,到2020年,全球数据量将扩大50倍。此外,各种意想不到的来源都能产生数据。
(2)Variety(多样性):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。大数据大体可分为三类:一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;二是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。
(3)Velocity(高速性):数据被创建和移动的速度快。在网络时代,通过高速的计算机和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。
(4)Value(价值性):相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法进行深度分析,发现新规律和新知识,并运用于农业、金融、医疗等各个领域,从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。
2.大数据的构成
大数据分为结构化数据、非结构化数据和半结构化数据三种,如图1.2所示。结构化数据是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范。通常,信息系统涉及生产、业务、交易、客户等方面的数据,采用结构化方式存储。一般来讲,结构化数据只占全部数据的20%以内,但是就是这20%以内的数据浓缩了很久以来企业各个方面的数据需求,发展也已经成熟。而无法完全数字化的文档文件、图片、图纸资料、缩微胶片等信息就属于非结构化数据,非结构化数据中往往存在大量的有价值的信息,特别是随着移动互联网、物联网的发展,非结构化数据正以成倍速度快速增长。
图1.2 三种数据结构的简单总结
(1)结构化数据
结构化数据是由二维表结构来逻辑表达和实现的数据,也称作行数据,严格地遵循数据格式与长度规范,有固定的结构、属性划分和类型等信息,主要通过关系型数据库进行存储和管理,数据记录的每一个属性对应数据表的一个字段。
(2)非结构化数据
与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、各类报表、图片和音频、视频信息等。在数据较小的情况下,可以使用关系型数据库将其直接存储在数据库表的多值字段和变长字段中;若数据较大,则存放在文件系统中,数据库则用于存放相关文件的索引信息。这种方法广泛应用于全文检索和各种多媒体信息处理领域。
(3)半结构化数据
半结构化数据既具有一定的结构,又灵活多变,其实也是非结构化数据的一种。和普通纯文本、图片等相比,半结构化数据具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比,其结构又不固定。如员工简历,处理这类数据可以通过信息抽取、转换等步骤,将其转化为半结构化数据,采用XML、HTML等形式表达;或者根据数据的大小,采用非结构化数据存储方式,结合关系数据存储。
随着大数据技术的发展,对非结构化数据的处理越来越重要。据IDC的一项调查报告显示,企业中80%的数据都是非结构化数据,这些数据每年都按60%的比例增长。在利用传统的关系型数据库技术存储、检索非结构化数据的技术上,近年来逐渐发展出多种NoSQL数据库来应对非结构化数据处理的需求,但NoSQL数据库无法替代关系型数据在结构化数据处理上的优势,可以预见关系型数据库和NoSQL数据库将在大数据处理领域共同存在,在各自擅长的领域继续发挥各自的优势。