2.7 偏差检测

偏差检测(deviation detection)就是对数据集中的偏差数据进行检测与分析。在要处理的大量数据中,常常存在一些异常数据,它们与其他数据的一般行为或模型不一致。这里数据记录就是偏差(deviation),也就是孤立点。偏差包括很多潜在的知识,如不满足常规类的异常例子、分类中出现的反常实例、在不同时刻发生了显著变化的某个对象或集合、观察值与模型推测出的期望值之间有显著差异的事例等。偏差的产生可能是某种数据错误造成的,也可能是数据变异所固有的结果。从数据集中检测出这些偏差很有意义,例如在欺诈探测中,偏差可能预示着欺诈行为。因此,偏差检测和分析就成为一个有趣的数据挖掘任务。

偏差检测的主要问题在于:偏差点与数据记录之间不一致的标准如何确定,以及如何找到一个有效的方法来发现这样的偏差点。

偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。基于计算机的偏差检测算法大致有三类:统计学方法,基于距离的方法和基于偏移的方法。

例如,偏差检测可以发现信用卡欺骗。通过检测一个给定账号的支付记录,如果发现存在着某个付款数额比一般的付款数额高出很多的付费记录,则可能是信用卡欺诈。

偏差分析的一个重要特征就是它可以有效地过滤大量的不感兴趣的模式。