- 人工智能时代的风险治理
- 杨明刚
- 3235字
- 2022-04-28 14:50:33
4.3 风险数据挖掘
数据挖掘是指从大量、不完整、有噪声、模糊和随机的数据中通过算法搜索隐藏在其中有用的信息和知识的过程,其本质是发现新知识的应用技术。随着信息技术的飞速发展,人们所积累的数据量在不断地高速增长,最明显的是以TB为计算单位的数据规模已成为数据挖掘的常态。如何从海量的数据中提取我们所需要的有用信息是数据挖掘的核心目的。
数据挖掘的本质是指从大量数据中提取或挖掘出有用的知识。知识发现(Knowledge Discovery in Database,简称KDD)是数据挖掘一种广义的说法,具体含义是指从各种媒体表达的信息中,根据不同的需求获得知识。知识发现的目的是替使用者筛除原始数据的烦琐细节,从原始数据中提炼出有意义的、简洁的知识,直接向使用者报告。数据挖掘是知识发现中的一个特殊步骤,它们之间的区别可以理解为:知识发现比数据挖掘更具普遍性,而数据挖掘是一个更为具体和深入的概念。知识发现过程由以下迭代序列组成:数据挖掘、模式评价和知识表示,其中数据清理、数据集成、数据选择和数据转换是为挖掘准备数据的不同形式的数据预处理。数据挖掘的步骤可以与用户或知识库交互。有趣的模式作为新知识提供给用户或存储在知识库中。从狭义上说,数据挖掘只是这个过程中的一个步骤,尽管是非常重要的一步。从广义上说,数据挖掘是从数据库、数据仓库或其他信息库中存储的大量数据中发现有趣知识的过程。
数据挖掘的任务一般可以分为两大类:一是预测任务,此类任务的目标是根据其他属性值来预测特定属性的值,这里被预测的属性一般称为目标变量,而用来做预测的属性称说明变量;二是描述任务,目标是导出概括数据中潜在联系的模式,描述性数据挖掘任务通常具有探索性,并且常常需要后处理技术来验证和解释结果。
一是总结。数据总结的目的是集中数据,对数据进行简洁的描述。传统的方法是计算每个字段的数据库中的求和值、平均值、方差等,或者使用图形化的方式进行表述。数据挖掘主要的关注点是从数据泛化的角度来讨论数据总结。数据泛化的具体概念是一个从相对低层概念到更高层概念,并且对数据库中与任务相关的大量数据进行抽象概述的分析过程。由于数据库中的数据或对象总是包含最原始、最基本的信息,这是为了不造成任何有用的数据信息遗漏。为了数据使用的便捷性,使用者往往希望能够从较高层次的视图上处理或浏览数据,因此对数据进行不同程度上的泛化是为了便于查询的需要。
二是分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。一般情况下,分类和回归可用于预测。预测的目的是自动从历史数据记录中推导出给定数据的扩展描述,从而可以预测未来遇到的数据。分类和回归最大的区别就是,分类的输出是离散的类别值,回归的输出是连续的数值。
三是聚类。聚类也称为聚类分析或细分,基于一组属性对事例进行分组,同一聚类中或多或少有相似的属性值。聚类分析是把一组数据按照相似性和差异性分为多个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。聚类的方法包括统计方法、机器学习方法、神经网络方法等。
四是关联。数据关联是数据库中存在的一类重要的可被发现的知识。具体含义是,若两个或多个变量的值存在某种规律性,我们就称之为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。然而,很多情况下,我们并不知道数据库中数据的关联函数,或者即使知道也不确定,因此关联分析生成的规则带有可信度。
五是时序。时序模式是指通过时间序列搜索出的重复发生概率较高的模式。和回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
六是偏差分析。偏差分析又称比较分析,指的是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。数据库中的数据存在许多异常情况。它们与数据的一般行为或模型不一致,此类数据对象也称为离群点。大多数数据挖掘方法将离群点处理为噪声或异常进行丢弃。然而,在一些应用程序中,罕见的事件可能比普通事件更有价值和意义。异常数据的数据库非常重要,偏差检验的基本方法是找出观测结果与参考值之间的差异。
数据挖掘方法一般分为以下几种:
(1)遗传算法。遗传算法是一种自适应的全局优化概率搜索算法,用于模拟自然环境中生物体的遗传和进化过程。其第一次由美国密歇根大学计算机系教授、心理学系教授John Holland提出,这种算法具有计算简单、优化效果好的特点,它在处理组合优化问题方面也有一定的优势,可用于聚类分析。
(2)粗糙集方法。粗糙集理论作为数据分析处理理论,在1982年由波兰科学家Z.Pawlak创立。该理论最早由于语言的问题而被提出,1992年关于粗糙集理论的第一届国际学术会议在波兰召开,1995年ACM将粗糙集理论列为新兴的计算机科学的研究课题。粗糙集方法广泛应用于不精确、不确定和不完全信息的分类和知识获取。
(3)决策树方法。通俗来讲,将决策问题的自然状态或条件出现的概率、行动方案、益损值、预测结果等,用一个树状图表示出来,并利用该图反映出人们思考、预测、决策的全过程。决策树方法使用训练集生成测试函数,根据不同的值建立树的分支,并在每个分支集中反复建立下一层节点和分支。这样,生成决策树,然后修剪决策树,最后将决策树转化为规则,主要用于分类和挖掘。
(4)神经网络方法。人工神经网络就是模拟人类的思维方式,是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。虽然单个神经元的结构功能有限,但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。
(5)模糊逻辑。主要是模仿人脑的不确定性概念判断、推理思维方式,对于模型未知或不能确定的描述系统,以及强非线性、大滞后的控制对象,应用模糊集合和模糊规则进行推理,表达过渡性界限或定性知识经验,模拟人脑方式,实行模糊综合判断,推理解决常规方法难于对付的规则型模糊信息问题。在数据挖掘领域,模糊逻辑可用于模糊综合判别和模糊聚类分析。
(6)聚类分析。聚类分析是根据事物的特点对其进行聚类或分类。从中发现规律和典型模式。通过聚类后,将数据集转换成群集,具有类似的数据变量值相同的类,不同类型的变量数据值不具有相似的性质。这种技术是数据挖掘中最重要的技术。
(7)可视化技术。此类技术指的是运用人们较容易理解的图形、图表、曲线等形式展现比较复杂的结果,数据可视化极大地扩展了数据的表达能力,便于人们理解。
数据挖掘知识发现类算法包括关联规则性知识挖掘、神经网络型知识挖掘、遗传算法型知识挖掘、粗糙集型知识挖掘四大类。
神经网络型算法是一个学习与整合的机理,算法分类准确度高、并行分布处理能力强、分布存储集学习能力强、容错能力在数据挖掘算法中极为不错,同时还具备联想记忆的功能,是知识发现类别中重要的算法。但有一个很大的缺点,算法不能观察学习的过程,输出的结果可解释性极低;此外神经网络模型学习时间过长甚至有可能达不到学习的目的,需要大量参数。
遗传算法有着快速随机的搜索能力,且搜索是从集群出发,具有并行性,可以实现多个个体的同时比较,搜索使用评价函数启发,过程简单,但同样有一个致命缺陷,遗传算法的编程实现比较复杂,首先需要对问题进行编码,找到最优解后还需要对问题解码。另外与神经网络算法具有同样的缺点,训练时间太长。
粗糙集型知识挖掘是一种主要用于研究不完全和不完整信息描述的数据挖掘技术,它主要体现在模糊、不确定的数据分析处理能力上。
关联规则算法是一种基于规则的机器学习算法,该算法可以在大数据中发现彼此之间的关系。它的目的是利用一些度量指标来分辨数据库中存在的强规则。也即是说关联规则挖掘是用于知识发现,是一种无监督的机器学习方法。Apriori算法是关联规则算法中的经典算法。Apriori算法主要用于挖掘其内含的、未知的却又实际存在的数据关系,其核心是基于两阶段频集思想的递推算法。Apriori算法使用先验性质,大大提高了频繁项集逐层产生的效率,且算法简单易于理解,数据集要求低。