2.3 分类

数据库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。分类是数据挖掘中一项非常重要的任务,利用分类可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。从这个意义上说,数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类,进而也可以预测未来数据的归类。分类具有广泛的应用,例如医疗诊断、信用卡的信用分级、图像模式识别。

分类挖掘所获的分类模型可以采用多种形式加以描述输出。其中主要的表示方法有:分类规则(IF-THEN)、决策树(decision tree)、数学公式(mathematical formula)和神经网络。决策树是一个类似于流程图的结构,每个节点代表一个属性值上的测试,每个分支代表测试的一个输出,树叶代表类或类分布。决策树容易转换成分类规则。神经网络用于分类时,是一组类似于神经元的处理单元,单元之间加权连接。另外,最近又兴起了一种新的方法——粗糙集(rough set),其知识表示采用产生式规则。

分类通常用来预测对象的类标号。例如,银行信贷部门可以根据一位顾客使用信息数据库,将功课的信用等级记录为一般或良好,然后根据挖掘得出信用良好的顾客信息特征,应用这些特征描述,可以有效发现优质客户。这一分类过程主要含有如下2个步骤。

step 1 如图2.4所示,建立一个已知数据集类别或概念的模型。

图2.4 学习建模

step 2 对学习所获模型的准确率进行测试,如图2.5所示。

图2.5 分类测试