第8章 2018年中国大数据发展状况

8.1 发展环境

过去几年,大数据理念已经深入人心,“用数据说话”已经成为所有人的共识,数据也成了堪比石油、黄金、钻石的战略资源。近年来,我国大数据产业政策日渐完善,技术、应用和产业都取得了非常明显的进步。

2016年“国家大数据战略”在《中华人民共和国国民经济和社会发展第十三个五年规划纲要》中被正式提出。2018年4月,习近平总书记在全国网络安全和信息化工作会议上明确指出,要发展数字经济,加快推动数字产业化,依靠信息技术创新驱动,不断催生新产业、新业态、新模式,用新动能推动新发展。要推动产业数字化,利用互联网新技术新应用对传统产业进行全方位、全角度、全链条的改造,提高全要素生产率,释放数字对经济发展的放大、叠加、倍增作用。要推动互联网、大数据、人工智能和实体经济深度融合,加快制造业、农业、服务业数字化、网络化、智能化。

数据作为数字经济时代的关键生产因素,持续受到中央及地方政府重视。自2015年开始,国务院、工信部、财政部、教育部等部门相继制定了一系列大数据产业政策。各部委出台大数据产业政策的情况如图8.1所示。

图8.1 各部委出台大数据产业政策的情况

截至2018年8月底,全国31个省级政府均发布了大数据相关的政策,各地大数据政策已达160份,涉及总体规划、实施方案、年度任务要点及专项政策等文件。十余个省(直辖市、自治区)专门设置了大数据的管理部门,统筹推进大数据发展,为大数据发展营造了良好的氛围,呈现出京津冀、长三角、珠三角、中西部、东北部等全面开花的格局。

总体来看,我国的大数据产业政策环境正在从宏观指导的阶段,逐步向更加务实、更具可操作性的方向发展,与各地实际工作结合得更为紧密,提出的工作任务、配套措施更聚焦,对产业发展更具推动力。

8.2 发展特点

(1)顶层设计持续完善,政策机制日益健全

党的十九大提出“推动互联网、大数据、人工智能和实体经济深度融合”,习近平总书记在政治局集体学习中深刻分析了我国大数据发展的现状和趋势,对我国实施国家大数据战略提出了更高的要求。

2018年,全国各地加强贯彻落实《促进大数据发展行动纲要》《大数据产业发展规划(2016—2020年)》及相关政策,10多个地方已经设置了省级大数据管理机构,30多个省市制定实施了大数据相关政策文件,多层次协同推进机制基本形成。

(2)区域布局逐步优化,产业规模不断壮大

目前,我国已经建设了8个国家大数据综合试验区和5个国家大数据新型工业化示范基地,开展大数据方面的实践探索,区域布局逐步优化。

8个国家大数据综合试验区包括全国首个大数据综合试验区——贵州,两个跨区域类综合试验区——京津冀、珠江三角洲,四个区域示范类综合试验区——上海、河南、重庆、沈阳,以及一个大数据基础设施统筹发展类综合试验区——内蒙古。

5个国家大数据新型工业化示范基地分别是河北承德县高新技术产业开发区新型工业化产业示范基地、内蒙古和林格尔新区新型工业化产业示范基地、上海静安区新型工业化产业示范基地、成都崇州经济开发区新型工业化产业示范基地和贵州贵安综合保税区(贵安电子信息产业园)。

国家大数据综合试验区和新型工业化示范基地的设立,将在大数据制度创新、公共数据开放共享、大数据创新应用、大数据产业聚集、大数据要素流通、数据中心整合利用、大数据国际交流合作等方面进行试验探索,推动我国大数据创新发展。

(3)技术不断创新突破,软硬件产品界限被打破

过去几年,我国大数据软、硬件自主研发的实力快速提升,一大批大数据的技术和平台处理能力也开始跻身世界的前列。国内骨干企业已经具备了自主开发建设和运维超大规模大数据平台的能力,一批大数据及智慧城市方面的独角兽企业快速崛起,大数据领域的专利申请数量逐年增加。

为更广泛地覆盖数据生产加工流程,延长其产品和服务在数据生命周期中的作用范围,大数据产业的参与企业逐渐打破硬件和软件的产品界限,形成了“硬件带动软件”和“软件带动硬件”两种新型商业模式。浪潮推出的SmartRack系列整机柜服务器,针对深度学习应用、社交数据存储、热数据处理等不同数据处理场景制定了多种混搭架构方案,以一体机的方式实现硬件设施和软件管理的集成交付。阿里巴巴发布的数据平台率先探索以“软件带动硬件”的市场营销模式,该平台通过提供数据计算引擎、机器学习等开放服务,将阿里云的计算、存储等多种资源有机地组织在一起形成解决方案,有效扩展了阿里云在实际生产环境中的部署推广途径。

(4)行业应用逐渐深入,不断带动经济发展

全国各地积极组织了大数据产品和应用的解决方案的案例集,以及优秀解决方案的遴选等工作,并积极组织开展了大数据产业发展试点和示范项目活动,加快推动大数据和实体经济深度融合。目前,我国的大数据技术已经在电商、广告和搜索等行业得到比较广泛的应用并不断深入。金融、电信、医疗、教育、制造等行业也正在以大数据作为重要抓手来发展跨界的应用,推进“互联网+”发展。

随着互联网各类网络应用的不断深入,中国的大数据技术与应用的快速发展已成为不容忽视的事实。国内各IT企业,特别是大型互联网企业,都开始对大数据的存储、处理和应用进行战略布局。百度凭借其长期积累的用户搜索记录推出了开放“大数据引擎”,通过百度搜索服务提供“即搜即得”的高效数据展现。阿里云从基础的弹性资源供给逐渐扩展服务类型,研发并提供了支持PB级数据存储的分布式关系型数据库(PetaData)等一系列数据支撑产品。腾讯不仅在各大产品线中都设置了数据挖掘团队,还在和一些第三方数据挖掘公司、营销公司展开合作洽谈,充分挖掘用户在网上的行为、关系、UGC(用户产生的内容)等数据,从而提高营销效率。

总体来说,我国大数据产业快速发展,为提升政府治理能力,优化公共民生服务、促进经济转型和创新发展做出了积极贡献,成为推动经济社会发展的新动能。

8.3 市场规模

根据中国信通院调研测算,未来几年我国大数据产业将保持在10%~15%的发展增速, 2018年产业规模达到5405亿元,较2017年的4700亿元同比增长15%,2019年有望达到6216亿元,如图8.2所示。这里对大数据产业的统计口径为:指以数据生产、采集、存储、加工、分析、服务为主的相关活动,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务。

上述大数据产业市场规模的测算结果,是基于我国电子信息产业发展速度趋缓的情况下,综合考虑欧盟等国家组织加大数据保护、中美贸易摩擦等因素的影响后得到的。

根据工信部发布的数据,我国自2013年以来的5年时间,电子信息产业呈现稳步发展态势,其中2014—2017年,整个电子信息产业增速均小幅减少。造成这种状况的原因是多方面的。一是我国的电子信息产业自改革开放以来,经历了从无到有、从小到大的发展过程,目前整个产业规模已经非常巨大,其增长速度必然放缓。二是由于按照摩尔定律,电子产品价格稳步下降。三是最近几年我国整体经济面临较大下行压力,对电子信息产业造成影响。2013—2017年中国电子信息产业的市场规模如图8.3所示。

图8.2 2015—2019年中国大数据产业市场规模趋势

图8.3 2013—2017年中国电子信息产业的市场规模

数据交易市场方面,近年来受合规性因素影响,下滑趋势明显。2018—2019年无新增的大规模数据交易机构,之前已有的数据交易机构也在积极调整业务中。随着相关法律法规实施细则的落实与相关标准的推出,预期2019—2020年数据交易产业将回暖。

8.4 关键技术

2018年,以分析类技术、事务处理技术和流通类技术为代表的大数据技术得到了快速发展。以开源为主导、多种技术和架构并存的大数据技术架构体系已经初步形成。大数据技术的计算性能进一步提升,处理时延不断降低,硬件能力得到充分挖掘,与各种数据库的融合能力继续增强。

8.4.1 数据分析技术

从数据在信息系统中的生命周期看,数据分析技术生态主要有5个发展方向,包括数据采集与传输、数据存储与管理、计算处理引擎、数据查询与分析、数据可视化展现。

(1)数据采集与传输

在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术,兼顾离线和实时数据的采集和传输。

(2)数据存储与管理

在存储层,HDFS已经成为大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了K-V(key-value)、列式、文档、图这四类NoSQL数据库体系,Redis、HBase、Cassandra、MongoDB、Neo4j等数据库是各个领域的领先者。

(3)计算处理引擎

在计算处理引擎方面,Spark已经取代MapReduce成为大数据平台统一的计算平台,在实时计算领域,Flink是Spark Streaming强有力的竞争者。

(4)数据查询与分析

在数据查询和分析领域形成了丰富的SQL on Hadoop的解决方案,Hive、HAWQ、Impala、Presto、Spark SQL等技术与传统的大规模并行处理(Massively Parallel Processor,MPP)数据库竞争激烈,Hive还是这个领域当之无愧的王者。

(5)数据可视化展现

在数据可视化领域,敏捷商业智能(Business Intelligence,BI)分析工具Tableau、QlikView通过简单的拖拽来实现数据的复杂展示,是目前最受欢迎的可视化展现方式。

经过10多年的发展,数据分析的技术体系渐渐在完善自己的不足,也融合了很多传统数据库和MPP数据库的优点,从技术的演进来看,大数据技术正在向计算性能更高、流处理能力加强、硬件能力重充分挖掘、支持SQL、支持深度学习的方向不断发展。

8.4.2 事务处理技术

传统事务技术模式以集中式数据库的单点架构为主,但随着移动互联网的快速发展,智能终端数量呈现爆炸式增长,传统技术并不能支持大规模的并发事务处理,新一代分布式数据库技术应运而生。事务型数据库架构演进图如图8.4所示。

图8.4 事务型数据库架构演进图

经过多年发展,当前分布式事务架构正处在快速演进的阶段,综合学术界及产业界工作成果,目前主要分为三类。

(1)基于原有单机事务处理关系数据库的分布式架构改造

利用原有单机事务处理数据库的成熟度优势,通过在独立应用层面建立起数据分片和数据路由的规则,建立一套复合型的分布式事务处理数据库的架构。

(2)基于新的分布式事务数据库的工程设计思路的突破

通过全新设计关系数据库的核心存储和计算层,将分布式计算和分布式存储的设计思路和架构直接植入数据库的引擎设计中,提供对业务透明和非侵入式的数据管理和操作/处理能力。

(3)基于新的分布式关系数据模型理论的突破

通过设计全新的分布式关系数据管理模型,从数据组织和管理的最核心理论层面,构造出完全不同于传统单机事务数据库的架构,从数据库的数据模型的根源上解决分布式关系数据库的架构。

大数据事务处理类技术体系的快速演进正在消除日益增长的数字社会需求同旧式的信息架构缺陷,未来人类行为方式、经济格局及商业模式将会随大数据事务处理类技术体系的成熟而发生重大变革。

8.4.3 数据流通技术

数据流通是释放数据价值的关键环节。然而数据流通也伴随着权属、质量、合规性、安全性等问题,这些问题成为制约数据流通的瓶颈。为解决这些问题,大数据从业者从诸多方面进行了探索。目前来看,从技术角度的探索是卓有成效和富有潜力的。

安全多方计算和区块链是近年来常用的两种技术框架。由于创造价值的往往是对数据进行加工、分析等运算的结果而非数据本身。所以对数据需求方来说,不触碰数据,但可以完成对数据的加工、分析操作,也是可以接受的。安全多方计算这个技术框架就实现了这一点。其围绕数据安全计算,通过独特的分布式计算技术和密码技术,有区分地、定制化地提供安全性服务,使得各参与方在无须对外提供原始数据的前提下实现了对与其数据有关的函数的计算,解决了一组互不信任的参与方之间保护隐私的协同计算问题。区块链技术中多个计算节点共同参与和记录,相互验证信息有效性,既进行了数据信息防伪,又提供了数据流通的可追溯路径。业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。

除以上两种技术框架外,近年来还涌现出多种数据流通的技术工具,这里将其列表总结,如表8.1所示。

表8.1 数据流通技术工具对比[1]

续表

8.5 行业应用

近年来,在全球经济数字化浪潮的带动下,我国大数据与实体经济的融合应用不断拓展。大数据企业正在尝到与实体经济融合发展带来的“甜头”。利用大数据可以对实体经济行业进行市场需求分析、生产流程优化、供应链与物流管理、能源管理、提供智能客户服务等,这不但大大拓展了大数据企业的目标市场,更成为众多大数据企业技术进步的重要推动力。

随着融合深度的增强和市场潜力不断被挖掘,大数据在各行业的融合应用给企业带来的益处和价值正在日益显现。

电信大数据的应用场景主要有客户分析、客户迁移、精确营销、客户服务提升等,且不断对现有应用场景进行优化。

交通大数据通过减少拥堵、保障运行安全、提高货运效率、升级通行方式和构建服务管理监督机制5个方面提升交通效率。

医疗大数据有包括临床决策支持、健康及慢性病管理、医疗支付、医药研发、医疗管理等在内的多个主要应用场景。

城市规划大数据利用GIS技术等进行分析挖掘和可视化及商业选址决策。

然而总体来看,目前我国在大数据与实体经济融合领域整体上还处于发展初期。相对于发达国家,在融合行业数量、融合应用深度、融合业务规模、融合发展均衡性等方面还有一定差距。这一阶段主要特点如下。

(1)业务类型不均衡

大数据融合应用主要集中在外围业务上,而在核心业务方面的渗透程度还有待提高。调查显示[2],在应用大数据的行业企业中,营销分析、客户分析和内部运营管理是应用最广泛的3个领域。61.7%的企业将大数据应用于营销分析,50.2%的企业将大数据应用于客户分析,将近50%的企业将大数据应用于内部运营管理。相比之下大数据分析在产品设计、产品生产、企业供应链管理等核心业务的应用比例还有待提升,大规模应用尚未展开。

(2)地域分布不均衡

大数据融合应用在地区之间发展不均衡,各地大数据应用发展程度差距较大。受经济发达程度、人才聚集程度和技术发展水平影响,大数据应用的产学研力量仍主要分布在北京、上海、广东、浙江等东部发达地区。相关的数据显示[3],中西部地区的大数据应用虽然市场需求较大,但发展水平仍较低。

(3)行业分布不均衡

大数据融合应用主要集中在部分行业中,大数据与金融、政务、电信等行业的融合效果较好,而在其他众多行业的融合效果则有待提高。

8.6 数据监管与治理

大数据时代数据安全监管更加迫切。由于大数据的泛在性、规模性和隐蔽性,使数据的管理产生了3个难题:难以监管、难以评估和难以应对。数据随时随地实时产生,但监管不能无孔不入,特别是冗杂的隐蔽数据,如果全面禁止商业收集和使用,就会影响相关行业发展,也会使监控成本飙升;如果不加以监控,又会引发数据滥用的风险,可能造成持续性、大范围、不可估量的结果。

近年来,各国政府开始通过立法等方式加强数据监管。我国虽然在顶层设计中对数据安全问题高度重视,但在各操作层面仍然有着认识不高、办法不多、措施乏力的安全隐患。我国在数据安全建设上仍然任重道远。

(1)个人数据保护的法治建设

大数据的发展使得个人信息保护面临的形势更加复杂,个人信息泄露事件频发,引发各界高度关注,全球个人信息保护立法活动持续升温。韩国于2011年颁布《个人信息保护法》,适用范围涵盖公共与私人部门管理的所有个人数据信息。俄罗斯出台了《个人数据保护法》,规定任何网络媒体在收集、存储、处理俄罗斯公司或公民个人信息时,必须使用俄境内服务器。2018年5月,欧盟《全面数据保护法规》(GDPR)生效,限定互联网公司必须使用清晰、简捷的方式告知用户数据的收集和使用范围,并明确说明这些数据的用途。

我国个人数据保护立法起步较晚。2012年年底,全国人大常委会通过了《关于加强网络信息保护的决定》,首次以法律的形式明确规定保护公民个人及法人信息安全。2013年7月,工信部出台了《电信和互联网用户个人信息保护规定》,明确了电信业务经营者、互联网信息服务提供者收集、使用用户个人信息的规则和信息安全保障措施等。2016年11月,全国人大常委会通过《网络安全法》,将个人信息保护纳入网络安全保护的范畴,其中,第四章“网络信息安全”也被称为“个人信息保护专章”。

《关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《网络安全法》的相继发布,标志着我国个人信息保护工作取得了重大进展。此外,我国在《刑法》《消费者权益保护法》《身份证法》《征信业管理条例》等法律法规中也对个人信息保护做了相关规定,进一步补充健全了我国的个人信息保护法律体系。

(2)跨境数据流通的法治建设

在数字经济的驱动下,跨境数据流动日益频繁,如何应对跨境数据流动带来的数据安全风险成为当前国际社会争论最为激烈的话题。2014年,俄罗斯通过《关于信息、信息技术和信息保护法》《俄罗斯联邦个人数据法》的修改确立了数据跨境流动的本地存储规则。2016年,欧盟和美国商务部达成了《欧美隐私屏障》,对美欧之间的跨境数据流通提供了弹性的规范制度。

我国现有部分法律法规已经对跨境数据流动管理做了相关规定。例如,《保守国家秘密法》要求防止含有国家秘密的数据流出中国;《征信管理条例》规定征信机构对在中国境内采集的信息的整理、保存和加工,应当在中国境内进行;《地图管理条例》规定互联网地图服务单位应当将存放地图数据的服务器架设在我国境内。

为应对日益严峻的国际跨境数据流动风险,我国《网络安全法》也对涉及关键信息基础设施的数据做了相关要求。其第三十七条规定:关键信息基础设施的运营者在中华人民共和国境内运营中收集和产生的个人信息和重要数据应当在境内存储。因业务需要,确需向境外提供的,应当按照国家网信部门会同国务院有关部门制定的办法进行安全评估;法律、行政法规另有规定的,依照其规定。

全球数字经济的发展对跨境数据流动提出了一定要求,完全禁止数据的跨境流动也不符合我国大数据产业发展的现实需要,平衡数据跨境流动与确保安全成为当前和未来我国立法的一个重要探索方向。

8.7 发展趋势

与互联网行业的发展规律类似,大数据领域的发展呈现明显的集中化趋势。拥有较多数据资源和较强数据分析能力的巨型企业在“数据为王”的时代将占据更有利的地位,然后凭借优势地位占据更多数据资源。在大数据时代,BAT能够持续保持优势就是因为它们分别通过搜索、电商、社交积累了大量数据,并且借此吸引到其他有技术和创意优势的数据资源企业,构建由自己主导的生态圈。同样线下龙头企业可以效仿BAT的成功路径,成为大数据时代的赢家。从长期来看,大数据行业的集中化趋势还会继续加强,主要有以下3个方面原因。

一是数据可能造成进入壁垒或扩张壁垒,主要体现在数据优势、技术门槛和行业政策等方面。在数据优势方面,信息通信领域大量的用户和数据都集中在少数巨型企业平台上,大企业往往不愿意将价值无可估量的数据“金矿”共享给其他企业。在技术门槛方面,大型企业的数据采集能力和数据分析技术要比小型企业强大得多,因此对一些想要进入到大数据领域的小企业产生了技术壁垒。此外,在数据采集和使用过程中采取的隐私保护政策也在一定程度上有利于巨型互联网企业保护自己的数据资产。

二是拥有数据资源的主体能够形成市场支配地位,且对产业上下游的控制能力更强。由于大数据本身具有很强的网络效应,数据量需要足够“大”才能有更高的数据分析准确性,进而产生有竞争力的大数据产品。因此,在横向竞争领域,大数据行业具有更强的“马太效应”,容易形成强者恒强的局面。在对产业链上下游的合作方面,上游的数据商或下游的应用软件开发商都更加倾向于和实力强大的公司合作。

三是大型企业可以通过结盟并购产生数据垄断优势。大型企业通过投资、合作等方式拉拢其他企业形成联盟,垄断大量数据资源,再依托数据资源进一步提升自身竞争力,从而能够长期保持其领先地位。近年来,有关大数据并购案例越来越多,OECD在2015年的报告中指出,与数据有关的并购案例在2008年是55件,到2012年就增长为164件。在Microsoft/Yahoo、Google/ Doubleclick、Facebook/Whatsapp等并购案中,反垄断机构都表达了对大数据竞争的关切。

在新技术和国家政策的推动下,“大数据”已经从概念层面发展到实际应用阶段,并成为支撑社会有效运行的战略资源。在大数据价值日益凸显的过程中,企业间关于数据的竞争也日趋激烈。这反映出市场竞争开始由争夺用户向争夺数据转移,由同行业竞争向跨行业竞争转变等态势。

总体来看,我国大数据产业发展态势良好,也具备了一定的产业发展基础,但要实现从“数据大国”向“数据强国”的转变,还有以下诸多方面的障碍需要克服:第一,我国大数据技术缺乏自主创新,开源技术处于跟随状态,大数据分析技术大多来源于谷歌等国外大公司;第二,大数据相关的法律法规还不够完善,对个人隐私保护、企业数据应用和国家数据安全等方面提出了更高的要求;第三,在数据资源流动方面,跨企业跨行业数据资源的融合仍然面临诸多障碍;第四,大数据领域的发展呈现明显的集中化趋势,拥有数据资源优势的企业将会在大数据的发展潮流下获得更多优势。

(闫树、魏凯、姜春宇、吕艾临)


[1] 大数据发展促进委员会. 数据流通关键技术白皮书(1.0版)2018年.

[2] 大数据发展促进委员会. 中国大数据发展调查报告. 2018.

[3] 中国大数据产业发展评估报告(2017年).