1.2.3 数据分类实施步骤
根据不同的数据分类场景和要求,数据分类的步骤也略有不同。良好的数据分类工作,需要高效的自动化处理方式的支撑,以应对信息系统中每天产生的大量数据。
通常,数据分类的实施一般包括以下几个步骤。
(1)明确要分类的对象,即数据分类的目标。
(2)决定涉及的数据生命周期状态。
(3)选择分类方式:人工或自动。
(4)定义和应用标签。
数据分类实施步骤如图1-16所示。
图1-16 数据分类实施步骤
首先,要明确数据分类的对象。注意,不是所有的数据都拥有同样的价值,不需要对所有的数据进行分类,只需要关注有商业影响的数据。另外值得注意的是,数据的分类是一个持续、迭代的进程,不存在一劳永逸的数据分类策略。结合组织业务目标的变更或时间的变化,具体数据所属的分类也会变化。例如,在新产品发布之前,其外观设计、硬件配置和定价策略可能属于机密信息,需要得到完善的保护。但是在产品发布会之后,上述信息则变成公开信息。
其次,决定涉及的数据生命周期状态。根据数据分类阶段选定的目标,确定其生命周期状态。最重要的是,分析待分类的敏感数据是在何时何地创建的,以推荐在创建的源头做好分类。可能识别出的源头包含应用程序、文件服务器、数据库、代码仓库等。根据源头的上下文分类会更准确。根据创建者的判断,也更精确,且更容易被审计。注意,数据在生命周期状态中的额外的优势还包括数据在生命周期中的位置,该位置越靠前就越容易覆盖整个数据生命周期的安全性。
再次,选择合适的分类方式。可供选择的分类方式包括自动分类方式(基于内容、基于上下文等)、人工分类方式。最理想的分类方式是能够减少对用户的打扰和不便。因此,现代的数据分类方案一般都采用自动化预先识别、自动化建议和人工判断相结合的方式。在数据分类中,人工智能也发挥着越来越大的作用。
一种理想的机器学习的用于数据分类的模型为:在训练阶段,输入用户信息、文档内容、创建时的上下文、对文档的分类结果(标签)。基于机器学习的分类引擎训练示例如图1-17所示。
图1-17 基于机器学习的分类引擎训练示例
之后使用训练得到的机器学习模型,对文档做出分类建议。基于机器学习的分类引擎应用示例如图1-18所示。
图1-18 基于机器学习的分类引擎应用示例
在机器学习领域,“分类”策略通常属于有监督学习的范畴。本书将在6.1节“AI与数据安全”中深入讨论。
最后,定义和应用标签。数据的类别应该能够携带保护的目的,数据的标签也应该有自解释性。不管是数据泄露防护(DLP),还是组织内部基于部门和角色的信息安全管理,都需要应用合适的数据标签。
注意,之前已经提到,大量不同的标签会带来额外的管理成本。因此,聚焦敏感数据的保护,不建议定义过多的标签(数据类型),对于数据泄露防护和一般的信息安全场景,可参考本书1.2.2节“数据分类框架”中介绍的两种数据分类系统,基于3~5种分类等级(如绝密、机密、秘密、内部公开、外部公开)的防护比较合适。在定义好标签之后,可以借鉴访问控制矩阵的理念,定义保护策略矩阵。数据分类与保护策略见表1-2。
表1-2 数据分类与保护策略
当前,已经有很多成熟的有关数据分类的IT系统或解决方案。选择组织机构时,可以考虑以下建议。
(1)应该支持人工和自动的数据分类方式。
(2)应该支持尽量多的数据形态和存储格式,而不仅使用微软办公系统的文档类型。
(3)分类机制可以和现有的DLP、归档、数据发现(Electronic discovery, E-discovery)及其他系统集成。
(4)分类标签可以在数据的整个生命周期获取(跨平台)。