- 云原生数据中台:架构、方法论与实践
- 彭锋 宋文欣 孙浩峰
- 725字
- 2022-08-23 15:15:26
6.2 数据工具
在实践中,一个很重要的思路是将方法论映射到我们所使用的工具中,然后通过这些工具来规范我们的管理方法,而不是通过说教或行政规定来确保这些方法论的执行。目前这样的工具是比较欠缺的,第4章介绍的DataOps就是使用工具来体现数据中台建设方法论的一个理论指导。前面的章节已经介绍过数据中台中的各种数据应用和工具,这里简单汇总如下:
·数据发现
·数据应用资产管理
·自助数据开发探索平台
·自助数据应用运维平台
·数据可视化
·数据共享
·数据即服务
·模型即服务
·多用户、多租户管理
·自动异常检测
·行为审计
实际场景:数据科学家的自助工具
一般来说,数据科学家的主要职责是编写机器学习程序并评估所生成模型的效果。他们的主要工作是理解业务数据与机器学习算法和模型之间的关系,使用最合适的模型和算法生成最精确的模型参数。在运行这些算法的时候,他们需要与底层的执行框架打交道,而且在模型确定后,还需要将其发布到生产系统并运维。这个时候如果底层系统出了问题,仍需要他们来解决。但是由于数据科学家一般对底层系统并不太熟悉,这会占用他们相当多的工作时间,降低他们调试算法和发布算法的效率,进而影响企业内部共享算法模型的效率。
为了解决这个问题,Twitter内部给数据科学家提供调试数据程序性能的工具,在程序出问题或者效率低下时,他们可以使用可视化的方式直接找到出问题的地方,进而快速解决问题。然后,通过内部云平台和PaaS系统,数据科学家可以快速通过可视化界面自助发布模型应用,而PaaS平台能够解决容错、负载均衡等一系列繁杂的配置工作,同时提供方便的运维工具,从而大大降低算法模型在公司内部共享的难度。如果没有这些工具,数据科学家就不时需要数据平台团队的支持,这就会大大降低研发的效率,提高数据能力共享的门槛。