1.3 大数据的内涵
从上一节的数据历史可以看出,大数据时代已经来到。近几年,大数据迅速发展成为科技界和企业界甚至世界各国政府关注的热点。以下我们来讨论大数据究竟是什么,大数据又有什么特征,为什么大数据在这个时候来临,以及大数据有哪些应用等人们关注的问题。
1.3.1 大数据的定义
“大数据”一词由英文“Big Data”翻译而来。大数据一词由著名未来学家阿尔文·托夫勒在《第三次浪潮》(1980年)一书中首先提出。虽然近几年来,大数据的浪潮迅速兴起,但对大数据的概念还没有一个确切而公认的定义。
维基(Wiki)百科从处理方法角度给出了大数据的定义,即大数据是指利用常用软件工具捕获管理和处理数据所耗时间超过可容忍时间限制的数据集。麦肯锡公司认为将数据规模超出传统数据库管理软件的获取存储管理以及分析能力的数据集称为大数据;高德纳咨询公司(Gartner)则将大数据归纳为需要新处理模式才能增强决策力、洞察发现力和流程优化能力的海量高增长率和多样化的信息资产,将大数据定义为不能够集中存储并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值性的海量复杂数据集。
因此大数据是相对概念,由于科技的发展日新月异,从定量方面很难定义。以上大多是对大数据的定性描述。虽说这些关于大数据定义的定义方式、角度及侧重点不同,但是所传递的信息基本一致,即大数据归根结底是一种数据集,其特性是通过与传统的数据管理及处理技术对比来凸显,并且在不同需求下,其要求的时间处理范围具有差异性,最重要的一点是大数据的价值并非来自数据本身,而是由大数据所带来的“大思维”“大机遇”,以及通过大数据挖掘提供的“大决策”、大数据分析解决的 “大问题”等。大数据的核心在于为客户从数据中挖掘出蕴藏的价值,而不是软/硬件的堆砌。“大数据”并不等同于“大量的数据”,从技术层面上看,大数据是无法用单台计算机进行处理的,必须采用分布式计算架构,其特色在于对海量数据的挖掘但它又必须依托一些现有的数据处理方法,如流式处理分布式数据库、云存储与虚拟化技术。
网络是大数据的主要载体之一,可以说没有网络就没有今天的大数据技术。美国网络数据中心指出,单就互联网上的数据每年将增长50%,每两年就将翻一番,而目前世界上90%以上的数据是最近几年才被人们逐渐认识和产生的。当然数据并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,这必然会产生海量的数据信息。
大数据的意义在于可以通过人类日益普及的网络行为附带生成,并被相关部门、企业所采集。大数据蕴含着数据生产者的真实意图、喜好,其中包括传统结构和非传统结构的数据。但是,要想从海量数据中挖掘出有用的信息,对网络架构和数据处理能力而言无疑是巨大的挑战。在经历了若干年的科技发展之后,人们终于迎来了大数据时代。
大数据的概念非常广泛,我们认识大数据不能仅仅从技术层面来理解,还要认识到它是融合物理世界、信息空间和人类社会三位一体的立体化世界的新概念,是一个崭新的生态。因为物理世界通过互联网、物联网等技术有了在信息空间中的大数据反映,而人类社会则借助人机界面、脑机界面、移动互联等手段在信息空间中产生自己的大数据映像。从信息产业角度来讲,大数据也是新一代信息技术产业,本质上是构建以云计算、大数据、物联网、移动互联网(社交网络)等的第三代信息产业平台。因此,我们认识大数据的目的就是针对不同领域的大数据应用模式、商业模式进行研究和探索,实现大数据在人类社会活动中的“大价值”。
1.3.2 大数据的特征
在以上对大数据的定义中,已经涉及了大数据的一些特性,其中包括在数据量、产生过程和价值等方面的特性。目前对于大数据的特性认可度较高的是“3V”特性:数据的规模性(Volume)、数据结构的多样性(Variety)及数据传播的高速性(Velocity),而在此基础上已经有不同的公司及研究机构对其进行了扩展。
(1)数据的规模性:大数据的首要特征,包括采集、存储和计算的数据量非常大。大数据的起始计量单位至少是100TB,通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态。
(2)数据结构的多样性:表示大数据种类和来源多样化,具体表现为网络日志、音频、视频、图片、地理位置信息等多类型的数据,多样化对数据的处理能力提出了更高的要求,由于编码方式、数据格式、应用特征等多个方面都存在差异性,多信息源并发形成大量的异构数据。
(3)数据传播的高速性:随着互联网的发展,数据的增长速度非常快,处理速度也较快,时效性要求也更高。例如,搜索引擎要求几分钟的新闻能够被用户查询到,个性化推荐算法要求实时完成推荐,这些都是大数据区别于传统数据挖掘的显著特征。
以上是大数据的三个基本特性,除此以外,随着人们对大数据的进一步认识,更多的特征也迅速显现出来,如真实性、易变性和价值特性等。
大数据的真实性(Veracity)是它的另一个特征。现在谈到的大数据不仅大,更重要的是大部分数据是在线或通过现代化的传感器获得的,这是互联网高速发展的特点和趋势。与传统途径获得的数据相比,本质区别在于数据的记录不由第三者人为记录,如历史学家、科学家或其他人的观察和记录,而由传感器或本人进行记录,在数据真实性方面更具有客观性和真实性。这些真实的数据更具有商业价值。
弗雷斯特研究公司(Brian Hopkins&Boris Evelson)指出了大数据的易变性(Variability)是大数据的另一特征。这是指大数据是由不确定的数据结构和多层次的结构组成。这给我们对大数据的分析和挖掘带来了巨大的挑战。
被普遍接受的大数据的另一重要特性是大数据的价值特性(Value)。我们已经知道,大数据含有巨大的价值,但大数据的价值通常很难被发现。这就是大数据具有的价值密度低的特性,只有通过很多的过程才能把它的价值挖掘出来。随着互联网和物联网的广泛应用,信息感知无处不在,信息量大,但价值密度较低,如何结合业务逻辑并通过强大的机器算法挖掘数据价值,是大数据时代最需要解决的问题。
总之,无所遁形的大数据时代已经到来,并快速渗透到每个职能领域。如何借助大数据持续创新发展,使企业成功转型,具有非凡的意义。
1.3.3 大数据技术产生的背景
“大数据”并不是一个凭空出现的概念,它的出现对应了数据产生方式的变革,生产力决定生产关系的道理对于技术领域仍然是有效的,正是由于技术发展到了一定的阶段才导致海量数据被源源不断地生产出来,并使当前的技术面临重大挑战。
从数据技术诞生以来,产生大数据的方式主要经过了三个发展阶段。
1.被动式生成数据
数据库技术使得数据的保存和管理变得简单,业务系统在运行时产生的数据可以直接保存到数据库中,由于数据是随业务系统运行而产生的,因此该阶段所产生的数据是被动的。
2.主动式生成数据
物联网的诞生使得移动互联网的发展大大加速了数据的产生概率,如人们可以通过手机等移动终端随时随地产生数据。用户数据不但大量增加,同时用户还主动提交了自己的行为,使之进入了社交、移动时代,大量移动终端设备的出现,使用户不仅主动提交自己的行为,还和自己的社交圈进行实时互动,因此数据大量产生出来,且具有极其强烈的传播性。显然,如此生成的数据是主动的。
3.感知式生成数据
物联网的发展使得数据生成方式得以彻底改变。例如,遍布在城市各个角落的摄像头等数据采集设备源源不断地自动采集并生成数据。
因此归纳起来大数据出现在现在的原因有以下几点。
(1)数据生产方式变得自动化。
数据的生产方式经历了从结绳记事到现在的完全自动化,人类的数据生产能力已不可同日而语。物联网技术、智能城市、工业控制技术的广泛应用使数据的生产完全实现了自动化,自动化的数据生产必然会产生大量的数据,甚至当前人们所使用的绝大多数数字设备都可以被认为是一个自动化的数据生产设备:我们的手机会不断与数据中心进行联系,通话记录、位置记录、费用记录都会被服务器记录下来;我们用计算机访问网页时的访问历史、访问习惯也会被服务器记录并分析;我们生活的城市、小区遍布的传感器、摄像头会不断产生数据并保证我们的安全;天上的卫星、地面的雷达、空中的飞机也都在不断地自动产生着数据。
(2)数据生产融入每个人的日常生活。
在计算机出现的早期,数据的生产往往只是由专业人员来完成的,能够有机会使用计算机的人员通常都是因为工作的需要,物理学家、数学家是最早一批使用计算机的人员。随着计算机技术的高速发展,计算机得到迅速普及,特别是手机和移动互联网的出现使数据的生产和每个人的日常生活结合起来,每个人都成为数据的生产者:当你发出一条微博时,你在生产数据;当你拍出一张照片时,你在生产数据:当你使用手中的市民卡和银行卡时,你在生产数据;当你在QQ上聊天时,你在生产数据;当你用微信发朋友圈或聊天时,你在生产数据;当你玩游戏时,你在生产数据。数据的生产已完全融入人们的生活:在地铁上,你在生产数据;在工作单位,你在生产数据;在家里,你也在生产数据。个人数据的生产呈现出随时、随地、移动化的趋势,我们的生活已经是数字化的生活。
(3)图像、音频和视频数据所占比例越来越大。
人类在过去几千年主要靠文字记录信息,而随着人们生活中生产数据技术的发展,人类越来越多地采用视频、图像和音频这类占用空间更大、更形象的手段来记录和传播信息。从前聊天我们用文字,现在用微信和视频,人们越来越习惯利用多媒体方式进行交流,城市中的摄像头每天都会产生大量视频数据,而且由于技术的进步,图像和视频的分辨率变得越来越高,数据也变得越来越大。
(4)网络技术的发展为数据的生产提供了极大的方便。
前面说到的几个大数据产生的原因中还缺乏一个重要的引子:网络。网络技术的高速发展是大数据出现的重要催化剂:没有网络的发展就没有移动互联网,我们就不能随时随地实现数据生产;没有网络的发展就不可能实现大数据视频数据的传输和存储;没有网络的发展就不会有现在大量数据的自动化生产和传输。网络的发展催生了云计算等网络化应用的出现,使数据的生产触角延伸到网络的各个终端,使任何终端所产生的数据都能快速、有效地被传输并存储。很难想象在一个网络条件很差的环境下能出现大数据,所以,可以这么认为:大数据的出现依赖于集成电路技术和网络技术的发展,集成电路为大数据的生产和处理提供了计算能力的基础,网络技术为大数据的传输提供了可能。
(5)云计算概念的出现进一步促进了大数据的发展。
云计算这一概念是在2008年左右进入我国的,而最早可以追溯到1960年人工智能之父麦肯锡所预言的“今后计算机将会作为公共设施提供给公众”。云计算的出现使计算和服务都可以通过网络向用户交付,而用户的数据也可以方便地利用网络传递。云计算这一模式使网络的作用被进一步凸显出来,数据的生产、处理和传输可以利用网络快速地进行,改变了传统的数据生产模式,大大加快了数据的产生速度,对大数据的出现起到了至关重要的作用。
大数据的来源非常多,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。
(1)信息管理系统:企业内部使用的信息系统,包括办公自动化系统、业务管理系统等。信息管理系统主要通过用户输入和系统二次加工的方式产生数据,其产生的大数据大多数为结构化数据,通常存储在数据库中。
(2)网络信息系统:基于网络运行的信息系统即网络信息系统是大数据产生的重要方式,如电子商务系统、社交网络、社会媒体、搜索引擎等都是常见的网络信息系统。网络信息系统产生的大数据多为半结构化或非结构化的数据。在本质上,网络信息系统是信息管理系统的延伸,是专属于某个领域的应用,具备某个特定的目的。因此,网络信息系统有着更独特的应用。
(3)物联网系统:物联网是新一代信息技术,其核心和基础仍然是互联网,是在互联网基础上延伸和扩展的网络,其用户端延伸和扩展到了任何物品与物品之间进行信息交换和通信,而其具体实现是通过传感技术获取外界的物理、化学、生物等数据信息。
(4)科学实验系统:主要用于科学技术研究,可以由真实的实验产生数据,也可以通过模拟方式获取仿真数据。
1.3.4 大数据的应用领域及处理流程
大数据在社会生活的各个领域得到了广泛的应用,如大规模的电子商务、科学计算、金融服务、智慧城市、社会安全与保障、教育、体育、军事、能源、天文学、大气科学、基因组学、生物学,以及其他复杂或跨学科的科研等领域。不同领域的大数据应用具有不同特点,其响应时间、稳定性、精确性的要求各不相同,解决方案也层出不穷,其中最具代表性的有Information Cloud解决方案、IBM战略、Microsoft战略、京东框架结构等。本书讨论的重点是大数据在营销领域中的应用。
虽然大数据的应用领域广泛,但大数据的处理流程也有其一定的规律。一般来说大数据的处理流程可以定义为在适合工具的辅助下,对不同结构的数据进行抽取和集成,将结果按照一定的标准统一存储,再利用合适的数据分析技术对存储的数据进行分析从中提取有益的知识并利用恰当的方式将结果展示给终端用户。因此,大数据的处理流程与信息的生成过程极为相通(参见图1.3)。大数据的处理流程更重视实际的应用场景,必须首先对应用领域和数据挖掘的目标有明确和清楚的认知。大数据处理的基本流程如图1.6所示。
图1.6 大数据处理的基本流程
1.理解业务需求
充分理解业务的需求,提炼出大数据营销的目标,找到传统营销的瓶颈,确定数据分析的方法是成功的第一步。业务需求的确定也是来自客户的需求。深入把握客户的需求,才能设计出具有针对性的解决方案,提供个性化、主动的服务营销。同时只有深入把握行业需求,对客户进行全面分析和跟进,直接反馈业务市场的竞争态势,对市场的动态变化进行实时掌控,才能在竞争中占据主动。
2.数据采集和存储
由于大数据处理的数据来源广泛,而其第一步是对数据进行抽取和集成,从中找出关系和实体,经过关联、聚合等操作,再按照统一的格式对数据进行存储,现有的数据抽取和集成引擎有三种:基于物化或ETL(是英文Extract Transform Loal的缩写,用来描述将数据从来源端经过抽取、交换、转换、加载至目的端的过程)方法的引擎、基于中间件的引擎、基于数据流方法的引擎。数据采集主要分三种方式:基础运营方式、数据租赁运营方式及数据购买运营方式。它们又可归纳为两个方面,即内部信息采集和外部信息采集。所有数据都可以结合新媒体营销渠道获得。因此,企业一定要制定数据积累和管理框架。一方面通过市场调查消费者的消费记录及任何促销活动(特别是新媒体营销)的记录;另一方面利用公共记录的数据,如人口统计数据、医院婴儿出生记录、患者记录卡、银行担保卡、信用卡记录等都可以选择性地纳入数据采集范围。将收集的数据,根据企业数据管理的框架和自身的条件,选择适当的方式进行存储,建立起大数据平台。
3.数据准备和预处理
这个阶段是根据大数据营销的目标,确定大数据分析的数据范围,运用先进的大数据技术,对数据进行清洗或预处理。由于大数据的低价值密度的特征,对原始大数据的预处理往往也是一个很大的工程,甚至预处理的好坏直接影响之后数据分析的效果。
4.数据分析
大数据分析通常包含三个层次:描述性分析、预测性分析及措施性分析。
(1)描述性分析:通过分析数据,找出过去事件的特征和正在发生事件的趋势。
(2)预测性分析:通过分析数据,来预测未来可能发生的事情。
(3)措施性分析:通过分析数据,找出最佳措施,取得最优化的结果。
同样,针对大数据营销的数据分析主要从描述性统计分析、客户群的精准分类,以及数据模型的建立三方面来入手。例如:利用基本统计学方法进行统计分析;利用数据挖掘的分类、聚类、关联等方法进行客户群的精准分类;利用数据模型和机器学习等算法进行各种预测。
数据分析主要从描述性统计分析、客户群的精准分类及数据模型的建立三方面来入手。例如:利用基本统计学方法进行统计分析;利用数据挖掘的分类、聚类、关联等方法进行客户群的精准分类;利用数据模型和机器学习等算法进行各种预测。
大数据分析是指对规模巨大的数据进行分析。大数据分析是大数据处理流程的核心步骤。通过抽取和集成环节,从不同结构的数据源中获得用于大数据处理的原始数据,用户根据需求对数据进行分析处理,如数据挖掘、机器学习、数据统计、数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。利用大数据分析及挖掘技术改进已有数据挖掘和机器学习技术,开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术,突破基于对象的数据连接、相似性连接等大数据融合技术和用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中人们事先不知道但又是潜在有用的信息和知识的过程。
数据挖掘涉及的技术方法很多且有多种分类法。根据挖掘任务可分为分类或预测模型发现,数据总结、聚类、关联规则发现,序列模式发现,依赖关系或依赖模型发现,异常和趋势发现等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异质数据库、遗产数据库及环球网Web;根据挖掘方法可粗分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习方法可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法细分为前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。
5.形成数据报告
在数据分析的基础上,形成数据报告是非常重要的步骤。数据报告包括:分析报表、客户信息或客户群信息及其特征,以及根据分析结果提出应用建议。用户最关心的是数据处理的结果及以何种方式在终端上显示结果,因此采用什么方式展示处理结果非常重要。目前来看,可视化和人机交互是数据解释的主要技术。数据可视化无论是对普通用户还是数据分析专家,都是最基本的功能。数据图像化可以让数据“说话”,让用户直观地感受到结果。
数据可视化主要是借助图形化手段,清晰有效地传达或沟通信息。数据可视化技术的基本思想是将数据库中每个数据项作为单个图元元素表示,大量的数据集合构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。使用可视化技术可以将处理结果通过图形方式直观地呈现给用户,如标签云、历史流、空间信息等;人机交互技术可以引导用户对数据进行逐步分析,参与并理解数据分析结果。大数据分析提供了一种可能,既可以根据营销问题,封闭性地去挖掘对应数据进行验证,也可以开放性地探索,得出一些可能与常识或经验不一致的结论或完全相异的结论。
6.应用和反馈
数据指导营销最重要的是解读。一般是定义营销问题之后,采集对应的数据,然后根据确定的建模、分析框架或数据进行分析,验证假设,进行解读。在大数据分析的基础上,可解读的点变得非常丰富。解读的目的是应用,根据解读的结果,把分析的建议加入大数据营销计划,进行跟踪评估和优化提升,达到知识沉淀的目标,最终应用于新一轮的大数据营销中。
思考:
1.大数据、云计算、物联网和移动端之间的关系如何?
2.根据现代互联网时代的特性,从广义的角度思考大数据、云计算、物联网和移动端之间的关系,理解大数据生态的含义。