1.1 数据科学的定义

1.1.1 数据科学的背景

新一代信息技术进入生产成熟期。数字经济迎来战略机遇期,市场推崇务实和价值,企业和人才必须具备很强的综合实力。数字经济迎来战略机遇期。数字经济正在成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量,发展数字经济是把握新一轮科技革命和产业变革新机遇的战略选择。“十四五”的重点是产业数字化,即数字技术赋能传统行业,这是对数据科学的极大利好。

市场更加理性,推崇务实和价值。行业拥抱数字技术的过程,也是传统文化和创新文化融合的过程。传统行业关注场景、注重实效、追求性价比的风格,势必使得只有能解决最复杂场景问题的数字技术企业才有市场空间,这类企业只有将场景、技术和数据深度融合才能创造价值。

数字技术企业需要具备端到端的场景解决方案构建能力。当前,产业数字化处于孵化阶段,行业场景解决方案还不成熟,无法做到精细化分工,这就要求先行者必须打通数据集成、数据治理、数据分析、数据应用的全流程,形成端到端的解决方案。也势必要求先行者掌握数据科学的理论、方法和技术,具备业务分析、数据建模和应用、工程实现等全方位的数据价值实现能力。

数据科学人才需求旺盛,产、学、研协同势在必行。在产业数字化进程中,行业客户和数字技术企业都需要具备数据素养的复合型人才,这必须依靠高校和企业携手培养人才,更需要兼具理论、方法、工具和实践的平台支撑学科建设。

1.1.2 数据科学的定义

数据科学是为数字经济提供基础与技术支撑的学科,是有关数据价值链实现过程的基础理论与方法学。它运用建模、分析、计算和学习融合的方法研究从数据到信息、从信息到知识、从知识到决策的转换,并实现对现实世界的认知与操控。

其中数据价值链是由“数据集成-数据治理-数据建模-数据分析-数据应用”组成的一个数据价值增值过程,如图1-1所示。

图1-1 数据科学的组成

数据科学和大数据有着密切的关系,对大数据应用提供了强有力的支撑。随着大数据技术的不断发展和深度应用,大数据应用系统相比传统信息化系统表现出更高的技术难度和复杂度。通常来说,大数据应用的技术架构包含如图1-1所示的三个层次:

(1)场景化数据应用。面向业务用户的应用系统,按照用户群体大致可分为政务应用、企业应用和个人应用等类别。数据应用系统服务于特定的业务场景,为用户提供有价值的数据并利用数据驱动业务流程和决策,其中有价值的数据来自中间层数据科学通用工具。

(2)数据科学通用工具。面向数据工程师、数据科学家和数据分析师,帮助他们高效地开展数据集成、治理、建模、数据分析和服务等各项工作,快速实现数据的价值。数据科学通用工具一方面依赖底层计算存储基础设施,另一方面又必须对底层的基础能力进行提炼、封装和组合,让用户专注于核心的数据价值实现,免于陷入底层设施复杂的技术选型和环境配置。

(3)计算存储基础设施。面向系统工程师,帮助他们构建大数据系统必需的存储、计算和管理能力。计算存储基础设施层的技术复杂性体现在两个方面:①本层包含众多相对独立且专业程度较高的技术组件,例如仅数据存储组件便可分为关系数据库、文件系统、消息队列、缓存、图数据库、搜索引擎等多种类型,它们适用于不同的应用场景,一个应用往往需要组合使用多种存储组件,这就导致了大数据系统在底层基础设施的设计和管理上具有不可避免的复杂性;②存储计算基础设施层虽然有大量开源软件可供选择,但开源软件的使用门槛较高,往往需要系统工程师进行大量的选型、适配、配置和二次开发工作,以打造出更加集成、方便、安全和兼容性良好的产品。

大数据、数据科学、人工智能、数据智能这些领域有很多交集,容易发生混淆,下面给出它们的联系和区别:

·大数据包含计算存储基础设施、数据科学通用工具、场景化数据应用三个细分领域,其中数据科学通用工具是大数据价值实现的关键,也是数据科学的研究重点。

·数据科学研究数据价值链中的理论、技术和方法,侧重多模态数据融合、数据建模、知识发现、分析洞察、数据可视化、数据解释等方面。数据科学会应用统计学、信息学、人工智能、管理学、社会学等多领域的知识。

·人工智能以实现模拟人的智能为目标,包括感知、认知、决策和行动,侧重智能的数学表示、构建和应用方面的理论和技术。

·数据智能是指利用大数据和人工智能技术,用数据描述并分析现实和驱动业务智能化,更侧重场景化数据应用方面。