2.3.5 数据治理业务描述

数据治理对确保数据的准确性、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全性等方式将价值回馈于业务,并最终体现为增加收入和利润。通过数据治理,企业将获得更准确、质量更高的数据,为进一步的数据活动打好基础;标准化的数据资产管理方法、流程和策略,也将有效提高数据运营效率,使数据更容易与业务建立紧密联系、推动数据资产的变现,提高数据安全性、保证合规性。本数据仓库项目中主要设置的数据治理模块有元数据管理、权限管理、数据质量和集群监控,如图2-7所示。

图2-7 数据治理模块

元数据通常被定义为“关于数据的数据”,元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,可以使数据仓库实现自动化、可视化。元数据打通了源数据、数据仓库和数据应用全流程,记录了数据从产生到消费的全过程。元数据管理模块采用的框架是Atlas。Atlas是一个可伸缩且功能丰富的元数据管理系统,深度对接Hadoop的大数据组件。通过元数据管理可以对元数据进行整合、控制,对外提供元数据服务。

集群监控模块采用的框架是Zabbix。Zabbix软件能够监控众多网络参数和服务器的健康度和完整性。Zabbix具有灵活的报警机制,允许用户为任何事件配置基于电子邮件的报警,使用户可以快速响应服务器出现的问题。

权限管理模块采用的是Ranger服务。权限管理从表面上可以认为是通过某些技术手段限制用户的可能行为,但实际上权限管理的目的可以归结为提高数据安全系数、降低人为操作风险、隔离数据环境、提高工作效率、划分权限责任、规范业务流程。Ranger为用户提供集中式的权限管理框架,可以对Hadoop生态中的HDFS、Hive、YARN、Kafka等组件进行细粒度的权限访问控制,并且提供了Web UI,以方便管理员进行操作。

数据质量的高低代表该数据满足数据用户期望的程度,这种程度基于他们对数据的使用预期,只有达到数据的使用预期才能给予管理层正确的决策参考。数据质量作为数据治理的一个重要模块,主要可以分为数据的健康标准量化、监控和保障。本数据仓库项目主要通过Python脚本,验证增量数据的记录数、全表空值记录数、全表记录数是否在合理范围之内,以及验证数据来源表和目标表的一致性,确定当日的数据是否符合健康标准,实现数据质量的监控与管理。