- 高维数据分析预处理技术
- 祝琴
- 1462字
- 2022-05-26 20:18:33
2.3 数据挖掘所面临的挑战
数据挖掘技术作为在数据库和信息系统中最前沿的研究应用方向之一,已经获得了学术界和工业界的广泛关注,但其广阔的应用前景为许多研究人员和商业公司所关注的同时,也面临着一些棘手的问题,如为了使数据挖掘过程有效,首先需要检查所设计的数据挖掘系统是否满足预先的期望,等等。另外,数据挖掘发展到今天也面临着一些挑战[55]:①数据挖掘的集成,能够在任何地方任何时间点完成数据的集成、理解和挖掘任务;②信息网络的挖掘,在信息网络中如何找到互相关联、结果相异的数据;③数据挖掘结果的可用性、确定性及可理解性亟待提高;④高维数据的处理能力;⑤适应于时代需求的基于数据挖掘技术的新型智能决策支持系统的研究与开发。
正如哲学中指出的,任何事物都具有两面性。以上这些难题为现代数据挖掘技术的研究提供了方向,其中主要包括以下几个方面[56]。
(1)挖掘方法的执行效率和可伸缩性[57]。随着数据挖掘在各行各业应用的不断深入,处理的数据库的规模已经呈指数增长,从MB规模到GB规模和TB规模,发展到现在的PB规模。而传统的数据挖掘方法只适用于处理数据量比较小的情况,如几十个或者几百个数据对象,而对于大型数据量,这些传统方法就显得有些力不从心。
(2)处理混合性数据。目前数据挖掘系统处理的基础主要是关系数据库,但是,随着应用范围的不断扩大,所要处理的数据类型也会相应增加。因此,数据库中包括大量类型复杂的、结构异同的数据是必然的趋势,如无结构化数据、图像数据、全球定位系统(global positioning system,GPS)数据、事务数据及历史数据等。数据挖掘系统必须具有有效地处理异构数据的能力。
(3)数据挖掘系统的交互性[58]。在数据挖掘过程中,如果操作者能够适当参与其中,将有助于提高数据挖掘的质量。一方面,提供交互界面用以接收用户的查询、检索要求和数据挖掘策略以及方便用户表达要求和策略;另一方面,交互界面又能把挖掘结果传递给用户,结果的形式可以是多种多样的。因此,研究准确而直观的、描述挖掘结果的、友好的、高效的用户界面(交互窗口)也是一个重要的方向。
(4)Web挖掘[59]。网络技术的发展使得Web具有大量信息,并且其对当今社会的作用越来越重要,相应的,关于Web中的内容挖掘、日志挖掘以及互联网的数据挖掘服务的研究已经兴起,将受到越来越多的关注。
(5)信息安全与隐私保护[60]。能从不同的角度、不同的抽象层上看待数据是数据挖掘的特点,这将对数据的私有性和安全性产生潜在的影响。而现代生活中,人们越来越注重隐私的保护,而计算机网络的广泛应用使非法数据入侵成为数据挖掘研究亟待解决的实际应用问题之一。
(6)新的应用领域探索。信息技术的发展与应用拓展了数据挖掘的应用空间,特别是在生物制药、商业智能服务、网络应用服务等领域,数据挖掘将会成为新的研究热点。同时,由于通用数据挖掘系统在普适方面存在局限性,因此,特定的应用领域需要研制相应的数据挖掘系统。
(7)数据挖掘语言的标准化[61]。数据挖掘行业的标准化工作将有助于数据挖掘系统的研究和开发,同时也方便用户使用和学习数据挖掘系统。研究知识发现的专属语言,可以使其像SQL语言一样走向形式化和标准化。
(8)数据挖掘结果的可视化[62]。可视化的作用是,数据挖掘的结果可以帮助用户有效地发现知识。目前数据挖掘结果的可视化形式还主要体现为简单语言描述,如果数据挖掘过程及其结果都能可视化,将会使数据挖掘过程变得更为生动、形象和具体。通过变换和调整数据和结果的图形展示,帮助分析人员和用户的理解,将有力促进数据挖掘分析工具在知识发现和数据分析中的应用。