1.1 粗糙集
在自然科学、社会科学与工程技术的诸多领域中,都不同程度地涉及到对不确定因素和不完备信息的处理。从实际系统中采集到的数据常常包含着不精确的甚至不完整的信息,若采用纯数学上的假设来消除或回避这种不确定性,效果往往不理想。反之,如果对这种信息进行适当地处理,常常有助于实际系统问题的解决。因此多年来研究人员们一直在努力寻找科学地处理不完整性和不确定性的有效途径。
在经典逻辑中,只有真、假值之分,而现实生活中许多含糊现象并不能简单地用真、假值来表示,因此,长期以来许多逻辑学家和哲学家致力于研究含糊概念。1904年谓词逻辑的创始人G.Frege就提出了含糊(Vague)一词,他把它归结到边界线上,也就是说在全域上存在一些个体既不能在其某个子集上分类,也不能在该子集的补集上分类[1]。
Lotfi A.Zadeh于1965年开拓性地提出了模糊集理论,该理论是研究和处理模糊现象的,所研究的事物的概念本身是模糊的,即一个对象是否符合这个概念难以确定,这种由于概念外延的模糊而造成的不确定性称为模糊性(Fuzziness)。
对于经典数学,人们自然而然联想到“精确”二字,精确数学建立在集合论的基础上。在康托创立的经典集合论中,经典集合所表达概念的内涵和外延都必须是明确的,一事物要么属于某集合,要么不属于某集合,二者必居其一,不允许模棱两可。但在人们的思维中,有许多没有明确外延的概念,即模糊概念。语言上有许多模糊概念的词,例如以人的年龄为论域,“青年”、“中年”、“老年”、“非年轻人”和“非老年人”都没有明确的外延,它们之间没有明确的界限,在一定意义下是一种过渡状态[2];或者以人的身高为论域,“高个子”、“中等身材”和“矮个子”也没有明确的外延。诸如此类的概念都是模糊概念。
控制论创始人维纳在谈人胜过任何最完善的机器时说:“人具有运用模糊概念的能力。”人脑能对模糊事物进行识别和判决,但计算机对模糊现象识别能力较差,为提高计算机识别模糊现象的能力,就需要把人们常用的模糊语言设计成机器能接受的指令和程序,以便机器能像人脑那样简洁灵活地做出相应的判断,从而提高自动识别和控制模糊现象的效率,这就推动了模糊数学的研究。
康托创立的经典集合论是经典数学的基础,它的逻辑真值是以数理逻辑为基础的。Zadeh创立的模糊集合是模糊数学的基础,它的逻辑真值是以模糊逻辑为基础的,是对经典集合的开拓。但遗憾的是模糊集是不可计算的,即没有数学公式可以描述这一含糊概念,故无法计算出它具体包含糊元素的个数,如模糊集中的隶属函数 μ 和模糊逻辑中的算子 λ 均是如此。
20世纪70年代,波兰数学家Z.Pawlak和一些波兰科学院、波兰华沙大学的逻辑学家们一起从事关于信息系统逻辑特性的研究,粗糙集理论就是在这种研究的基础上产生的。1982年,Z.Pawlak发表的经典论文Rough Sets[3],宣告了粗糙集理论的诞生。此后,粗糙集理论引起了许多数学家、逻辑学家和计算机研究人员的兴趣,他们在粗糙集的理论和应用方面做了大量的研究。1991年Z.Pawlak的专著[4]和1992年的应用专著的出版,对这一段时期内理论和实践的成果做了较好的总结,同时促进了粗糙集在各个领域的应用。此后召开的与粗糙集有关的国际会议进一步推动了粗糙集的发展,越来越多的科技人员开始了解并准备从事该领域的研究。目前,粗糙集已成为人工智能领域中一个较新的学术热点,在机器学习、知识获取、决策分析及过程控制等许多领域中都得到了广泛的应用。
由于最初关于粗糙集理论的研究论文大部分是用波兰语发表的,因此当时没有引起国际计算机、数学和人工智能等领域研究者的注意,研究地域也仅局限在东欧的一些国家,直到20 世纪80年代末才逐渐引起各国学者的注意。二十多年来,由于粗糙集理论在机器学习与数据库知识发现、数据挖掘、决策支持与分析、数据库系统理论等领域的广泛应用,它的研究逐渐趋热。1992年,第一届关于粗糙集理论的国际学术会议在波兰召开。1995年,ACM Communication将其列为新浮现的计算机科学的研究课题。1998年国际Information Sciences杂志为粗糙集理论的研究出了一期专辑[5]。
从1992年开始,每年都召开以Rough Set为主题的国际会议,国际上成立了相应的粗糙集学术研究会,并且在Internet上定期发布电子公告,加速了粗糙集理论的发展与交流。由于粗糙集理论能够分析处理不精确、不协调和不完备信息,因此作为一种具有极大潜力和有效的知识获取工具受到人工智能研究者的广泛关注。目前,对应粗糙集概念,发展了粗糙代数、粗糙逻辑、粗糙关系数据库和模糊粗糙关系数据等,与其他相关理论(如模糊集,证据理论)的关系也得到了研究和证明,明确了粗糙集理论在数学上的独立地位。近年来,粗糙集不但在数学理论上不断得到完善,而且在其他研究领域中也得到了成功的应用,如机器学习、决策分析、近似推理、图像处理、医疗诊断、金融数据分析、专家系统、冲突分析、过程控制和数据库知识发现(Knowledge Discovery in Database,KDD)等领域[6]。
粗糙集理论的基本思想是通过关系数据库分类归纳形成概念和规则。在粗糙集中有两个重要概念,一是近似算子,一是约简与核心。通过上、下近似算子产生确定性规则与不确定性规则,通过约简与核心简化规则使之具有较好的泛化能力。目前成功的研究结果主要体现在具有有限属性值的关系数据库上,通过等价关系的分类以及分类对于目标的近似,实现知识发现过程[7]。换句话说,粗糙集是利用已知的知识库,将不精确和不确定的知识用已知的知识库中的知识来(近似)刻画;粗糙集理论是建立在分类的基础上,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分[5]。利用粗糙集理论进行数据分析有以下特点:(1)在数据分析过程中,只有已知的数据被处理,由用户提供的需处理的数据构成了直接的信息源。它与其他处理不确定和不精确问题的理论最显著的区别是它无需提供所处理的数据集合之外的任何先验信息,即数据以外的参数假设是不需要的,如统计学中的概率分布,Dempster-Shafer证据理论中的基本概率赋值,模糊集理论中的隶属度等,这些信息有时并不容易得到,而粗糙集理论则避免了这些问题。(2)以粗糙集理论为支撑的粗糙数据分析技术(Rough Set Data Analysis,RSDA)是一个强大的数据分析工具,它能表达和处理不完备信息,能在保留关键信息的前提下对数据进行约简并求得知识的最小表达,能识别并判定数据之间的依赖关系以去除冗余属性从而达到降低维数的目的,能从经验数据中获取易于证实的规则知识等。(3)与已知的模糊集知识形成互补。粗糙集和模糊集分别刻画了不完备信息的两个方面:粗糙集以不可分辨关系为基础,侧重分类;模糊集基于元素对于集合的隶属程度,强调集合本身的隶属性与含糊性。从粗糙集的观点看,某些集合不能精确定义的原因是缺乏足够的论域知识,但可以用一对清晰的集合来表示。(4)粗糙集和KDD关系密切,它为KDD提供了一种新的研究方法和工具。KDD研究的实施对象多为关系型数据库。关系表可被看作为粗糙集理论中的信息表或决策表,这给粗糙集方法的应用带来极大的方便。(5)现实世界中的规则有确定性的,也有不确定性的。从数据库中发现不确定性的知识,为粗糙集方法提供了用武之地。另外,运用粗糙集方法得到的知识发现算法有利于并行执行,这极大地提高了对大型数据库知识发现的效率[8]。
目前,对粗糙集的研究主要集中在:粗糙集模型的推广,问题的不确定性的研究,与其他处理不确定性及模糊性问题的数学理论的关系与互补纯粹的数学理论方面的研究,粗糙集数据约简与知识获取的算法研究;粗糙集与数据库关系的研究;粗糙集与模糊集、商空间、粒计算相互之间关系研究等。这些研究有的是受应用的推动而产生的,有的是纯理论的,尚无应用背景。
在粗糙集模型的推广方面的研究主要涉及可变精确粗糙集模型、模糊粗糙集模型与粗糙模糊集模型、基于相似关系的粗糙集模型、基于一般关系的粗糙集模型、α-RST模型、基于优先关系的粗糙集模型、不完备系统下的粗糙集模型以及对连续属性的离散化等[10~26]。
粗糙集理论中的不确定性主要由两个原因产生:来自论域上的二元关系及其产生的知识模块,即近似空间本身,如果二元等价关系产生的每一个等价类只有一个元素,那么由等价关系产生的划分不产生任何信息。论域的划分越粗糙,则每一个知识模块越大,知识库中的知识越粗糙,相对于近似空间的概念和知识就越不确定,这时处理知识的不确定性往往用Shannon的信息熵来刻画。从这个角度讲,粗糙集与信息论的关系就比较密切,不少学者在这方面做了研究工作[5]。
在粗糙集与其他处理模糊性及不确定性方法之间关系的研究中,主要讨论它与模糊集理论和Dempster-Shafer证据理论的关系和互补。
(1)具体地说,模糊集和粗糙集理论在处理不确定性和不精确性问题上都推广了经典的集合论。它们虽然有一定的相容性和相似性,但它们对知识刻画的侧重面不同。从知识的“粒度”的描述上看,模糊集是通过对象关于集合的隶属程度来近似描述的,而粗糙集是通过一个集合关于某个可利用的知识库上的一对上、下近似来描述的;从集合对象间的关系来看,模糊集强调的是集合边界的定义,即边界的不分明性,而粗糙集强调的是对象间的不可分辨性;从研究的对象上看,模糊集研究的是属于同一类的不同对象间的隶属关系,重在隶属程度,而粗糙集研究的是不同类中的对象组成的集合关系,重在分类。虽然模糊集的隶属函数与粗糙集的粗糙隶属函数均反映了概念的模糊性,直观上有一定的相似性,但模糊集的隶属函数大多是由专家的经验给出的,因此往往带有很大的主观性,而粗糙集的粗糙隶属函数是对数据进行分析计算出来的,因此非常客观。正因如此,将粗糙集理论与模糊集理论进行某些“整合”,然后描述知识的不确定性和不精确性比它们各自描述知识的不确定性和不精确性可以显示更强的功能,模糊粗糙集模型是个比较成功的范例[5,12]。
(2)粗糙集理论与D-S证据理论在处理不确定问题上产生和研究的方法是不一样的,但是却有某种相容性,粗糙集理论是为开发规则的机器自动生成而提出的,而D-S理论主要用于证据推理。粗糙集理论用概念的一对上、下近似来进行描述,而D-S证据理论则用一对信任函数和似然函数在给定证据下对假设进行评估。粗糙集理论中的下近似和上近似的概率恰好分别是信任函数和似然函数[27],然而生成信任函数和似然函数的基本概率分配函数(即mass函数)是不同的,前者来自系统中的数据本身,比较客观,而后者来自专家的经验,比较主观,因此粗糙集理论与D-S证据理论具有很强的互补性[5]。
在粗糙集理论数学性质研究方面,主要讨论粗糙集的代数结构与拓扑结构,以及粗糙集的收敛性问题[28~31]。一些衍生数学概念也不断出现,如粗糙理想、粗糙半群[32]和粗糙群等。相信随着粗糙结构、拓扑结构和序结构等各种结构的不断整合,必将涌现出新的富有生机的数学分支。
在粗糙集理论用于数据约简与知识获取的有效性算法研究方面,主要集中于抽取最优决策规则算法[33]、导出规则的增量式算法[34~35]、约简的启发式算法[36~37]及粗糙集基本运算的并行算法[38~39]。
在粗糙集与数据库关系的研究方面,主要研究粗糙集理论与关系数据库的关系问题[40]和信息系统(数据库关系的泛化)的粗糙计算问题(包括利用属性进行分类问题、函数依赖问题、寻找数据库的键值、属性及属性子集的重要性问题)等[41]。由粗糙集与关系数据库结合形成了粗糙关系数据库(Rough Relational Database,RRDB),在这方面主要研究粗糙关系操作算子、粗糙关系数据库的不确定性的信息论度量,粗糙函数依赖及粗糙范式和粗糙数据查询等[42~43]。
在粗糙集理论中的度量方面主要研究粗糙数据分析中的度量、知识的不确定性度量及粗糙集与粗糙关系数据库的信息度量[4,26,43]。另外,由于基于粗糙集的逻辑是关于粗糙集的不确定推理的基础,发展这类逻辑理论基础也是目前粗糙集理论研究的重要课题。
粗糙集理论的生命力在于它具有较强的实用性,从诞生到现在已在许多领域取得了令人振奋的成果[6~8]:
(1)在股票数据分析方面,文献[44]应用粗糙集方法分析了十年间股票的历史数据,研究了股票价格与经济指数之间的依赖关系,获得的预测规则得到了华尔街证券交易专家的认可。
(2)在医疗诊断方面,粗糙集方法根据以往的病例归纳出诊断规则,用来指导新的病例。现有的人工预测早产的准确率只有17%~38%,利用粗糙集方法则可以提高到68%~90%[45~46]。
(3)在地震预报方面,文献[47]研究了地震前的地质和气象数据与里氏地震级别的依赖关系,为地震的预测提供了一种新的方法。
(4)在模式识别方面,文献[48]应用粗糙集方法研究了手写字符识别问题,提取出了相应的特征属性。
(5)决策分析[49~50]。基于粗糙集的决策规则是在分析以往经验数据的基础上得到的。粗糙集允许决策对象中存在一些不太明确和不完整的属性,弥补了常规决策方法的不足。希腊工业发银行ETEVA应用粗糙集理论协助制定信贷政策,是粗糙集多准则决策方法的一个成功范例[51]。
(6)专家系统。粗糙集抽取决策规则的特点为构造专家系统的知识库提供了一条崭新的途径[46]。
(7)人工神经网络。训练时间过于漫长的固有缺点是制约神经网络实用化的因素之一。文献[37]应用粗糙集约简神经网络训练样本数据集,使训练速度提高了4.77 倍,获得了较好的效果。文献[52~53]将粗糙集与神经网络结合起来,充分利用粗糙集处理不确定性的特长以增强神经网络的信息处理能力。
(8)粗糙控制。粗糙集根据观测数据获得控制策略的方法被称为从范例中学习,属于智能控制的范畴。基本步骤是:把控制过程中的一些代表性的状态以及操作人员在这些状态下所采取的控制策略记录下来,形成决策表,然后对其进行分析约简,总结出控制规则。文献[54~55]应用粗糙控制研究小车—倒立摆系统这一经典问题,取得了较好的效果。在过程控制领域,文献[56]应用粗糙集方法成功提取了水泥窑炉的控制规则。粗糙控制的优点是简单迅速、容易实现,不需要像模糊控制那样进行模糊化。因此在特别要求控制器结构与算法的场合,采取粗糙控制较为合适。另外,由于控制算法完全来自观测数据本身,其决策和推理过程可以很容易被检验和证实。一种新的有吸引力的控制策略——粗糙控制策略正在悄然兴起,其主要思想是利用粗糙集获取模糊控制规则。
(9)冲突分析。文献[57]应用粗糙集方法建立了反映以色列、巴勒斯坦、约旦、埃及、叙利亚和沙特阿拉伯六国关于中东和平问题各自立场的谈判模型。
(10)数据库知识发现。KDD是当前人工智能和数据库技术交叉学科的研究热点之一。粗糙集方法现已成为KDD的一种重要方法,其导出的知识精练且更便于存储使用。与其他知识发现方法相比,粗糙集方法有如下特点:粗糙集方法的伸缩性强;鲁棒性和抗噪声能力强;知识的可理解性和开放性较好;比较适合于符号信息。此外,粗糙集方法可以对数据进行预处理,去掉多余属性,提高发现效率,降低错误率。
王珏教授在谈到Rough Set理论对归纳机器学习的贡献时认为,基于Rough Sets的Reduct(约简)理论在归纳机器学习理论中起着重要的作用,而Roughness也成为粒度计算中对知识粒度的一个重要测量。他把粗糙集的贡献总结为三点:①规范归纳机器学习,Rough Sets可以作为归纳机器学习的理论基础:Rough Set理论第一次揭示了归纳机器学习中的两个模型ID3和AQ11的关系和本质;②独立约简,这是一个有数学基础的结构目标,从而部分解决了机器学习平凡性的问题:与经典的ID3和AQ11之类的归纳机器学习相比,Rough Set理论所暗示的研究空间要大得多。由于独立约简是一个介于最优与完全随意(事实上就是无目标)之间的一个问题复杂性O(n2)的目标,对机器学习而言,其重要性就不仅限于结构化机器学习的研究了,它已具有了更为深刻的含义;③正区域与Roughness,以描述知识粒度与其测量:Roughness的提出使得信息系统的知识粒度可以使用Roughness来测量,Roughness成为知识粒度的特征,这就是Rough Set理论的另外一个重要贡献[58]。
商空间理论的创始人之一张铃教授认为,粗糙集从本质上看是微观的粒度计算。研究粒度的表示、刻画和粒度与概念之间的依存关系,粗糙集理论中的论域只是简单的点集,元素之间没有拓扑关系。故在某种意义下,粗糙集理论是一种无结构的商空间理论。
虽然粗糙集理论至今只有近三十年的发展历史,但相关的研究成果是令人注目的,它是一种非常有前途的软计算方法,为处理不确定性信息提供了强有力的分析手段,相信粗糙集理论具有广阔的发展空间,今后将会在更多的领域发挥作用。
同时也应指出,在数据挖掘技术与理论非常丰富的今天,粗糙集理论也不是万能的。对建模而言,尽管粗糙集方法对知识不完全处理是有效的,但是由于未包含处理不精确或不确定原始数据的机制,因此,单纯地使用这个理论不一定能有效地描述与处理不精确或不确定问题,这意味着需要其他方法补充。粗糙集理论与其他软计算方法的结合能够提高数据挖掘能力,这是由现实世界的复杂性和处理方法有限能力的矛盾决定的。因此,在处理不确定问题时,往往将粗糙集方法与其他方法结合,如粗糙集与模糊集、证据理论、神经网络、遗传算法、信息论方法、统计方法、Petri网和Bayesian方法等相结合,可以说,粗糙集与其他软计算方法的结合是粗糙集发展的一种趋势。
1.1.1 信息系统
任何一种智能信息处理方法都不可能离开适合于其自身的知识表达形式,基于粗糙集理论的知识发现也不例外,它主要是借助于信息系统来展开其理论和方法的。
从认知科学的角度来看,可以认为知识是人类对客观事物的分类能力,概念为事物类的描述。一般地,人们在研究问题的时候总是在感兴趣的事物范围内来进行的,该范围即数学上所说的论域。假定起初对论域中的个体(对象)具有必要的信息或概念,这些信息和概念相对于要发现的知识都是原始的和基本的。通过这些概念可以将论域中的对象划分到不同的类别。如果两个对象具有完全相同的信息,那么将无法分辨它们,或者称它们是不可分辨的。按照论域中的对象之间是否具有不可分辨性,就可以在论域上建立对象之间的一个二元关系,显然这是一个等价关系[5~6]。
集合上的等价关系和集合的划分是等价的概念,即集合上的等价关系和其上的划分是可以相互唯一决定的。而划分就是分类,所以等价关系与分类具有天然的联系。论域中由等价关系划分出来的任意子集,都可称为论域中的一个概念。通常把论域中的任意概念族称为关于论域的抽象知识,简称为知识,它也代表了对论域中对象的分类[4]。
设U是一个论域,R是其上的一个等价关系族,根据上面的讨论,知识可以形式化地定义为在等价关系族R下对论域U中对象的划分,记作U/R。信息系统是粗糙集理论对知识进行表达和处理的基本工具。
定义1.1[4] 信息系统是一个有序四元组S=(U,AT,V,f),其中,
U——称为论域,由对象组成,它是一个有限非空集合;
AT——称为属性集,它是一个有限的非空属性集合;
Va——称为属性值域,Va是属性a的值域;
f——是一个U×AT→V的映射,对∀u∈U,a∈AT,f(u,a)∈Va,通常称f为信息函数或描述函数。
事实上,信息系统可直观地表达为一个二维表的形式,通常称该二维表为信息表,它是表达描述知识的数据表格.
定义1.2[4] 一般地,定义1.1中的AT=C∪D,C称为条件属性,D 称为决策属性,如果D=φ,此时的信息系统即为一般的信息系统;如果D≠φ,则该信息系统称为决策信息系统,表达决策信息系统的信息表称为决策表。
1.1.2 近似集及其性质
在信息系统中,对一个概念(即论域的一个子集)进行刻画时,一般只能通过信息系统的基本概念来解释,但由于现有的信息不足,并非对所有的概念都能精确地刻画和描述,也就是说,此时必须面对用基本概念近似描述任意概念的任务。粗糙集理论中的近似空间正是基于这种要求而提出的[8]。
定义1.3[4] 称论域U 连同其上定义的一个二元关系R 所形成的有序二元组S=(U,R)为论域U上的一个近似空间。
论域上一个二元关系可以按照某种方式决定论域的一个划分或覆盖,而这些划分或覆盖中的成员将被看作基本概念,用来描述一般的概念。特别地,如果关系R 是一个等价关系(在粗糙集理论中也称为不可分辨关系(Indiscernibility Relation)),则它唯一地决定了论域的一个划分。
令[x]R={y∈U|(x,y)∈R},称[x]R为由R 决定的x 的等价类,关系R的等价类称为S中的基本集(基本概念)或原子。
S 中任何有限基本集的并称为S 中的可定义集。S 中所有可定义集用符号Def(S)来表示。可定义集反映的是论域中可以被基本概念精确描述的概念。
知识的粒度性是造成已有知识不能精确地表示某些概念的原因。这就产生了关于不精确的“边界”思想。著名哲学家G.Frege认为“概念必须有明确的边界,没有明确边界的概念,将对应一个在周围没有明确界线的区域。”粗糙集中的模糊性就是一种基于边界的概念,即一个不精确的概念具有模糊的不可被明确划分的边界,为刻画模糊性,每个不精确概念用一对称为上近似与下近似的精确概念来表示[1]。
设X⊆U,集合X 关于R 的下近似(Lower Approximation)定义为:
实际上是由那些根据已有知识判断肯定属于X 的对象所组成的最大集合,也称为X的正区域(Positive Region),记作POSR(X)。
由根据已有知识判断肯定不属于概念X 的对象所组成的集合称为X的负区域(Negative Region)。记作NEGR(X):
NEGR(X)={x∈U|[x]R∩X=φ}
集合X关于R的上近似(Upper Approximation)定义为:
是由那些根据已有知识判断可能属于X 的对象所组成的最小集合。显然,。
集合X关于R的边界区域(Boundary Region)定义为:
BNR(X)为集合的上近似与下近似之差。如果BNR(X)=φ,则称X 关于R 是清晰的(Crisp),X 为精确集、可定义集;反之,如果BNR(X)≠φ,则称X为关于R的粗糙集。
我们也可以将看作为X 中的最大可定义集,将看作为含有X的最小可定义集。
下近似和上近似具有下列性质。
定理1.1[4] 和有下列性质:
(1);
(2);
(3);
(4);
(5);
(6);
(7;
(8);
(9);
(10);
(11);
(12);
(13)。
1.1.3 近似质量的刻画
粗糙集理论中,集合的不精确性是由于边界区域的存在而引起的。集合的边界区域越大,其精确性越低。为了更准确地表达集合的精确性,引入近似精度的概念。由等价关系R 定义的集合X的近似精度为:
其中X≠φ,card(X) 表示集合X 的基数。近似精度αR(X)用来反映我们了解集合X的知识的完全程度。
显然,对每个R和X⊆U有0≤αR(X)≤1。
当αR(X)=1时,X的R边界区域为空集,集合X为R可定义的;
当αR(X)<1时,集合X有非空R边界区域,集合X为R不可定义的,即粗糙的[4]。
也可以用其他一些度量来刻画集合X 的不精确程度。例如,用X的R粗糙度ρR(X)来刻画:
X的R粗糙度与近似精度恰恰相反,它表示的是集合X的知识的不完全程度。
也可根据上近似和下近似的定义来表达粗糙集的另一个有用的特征,即拓扑特征。下面定义四种不同的重要粗糙集[4]:
(1)如果Rapr (X)≠φ且aprR(X)≠U,则称X 为R 粗糙可定义的。
(2)如果且,则称X 为R 内不可定义的。
(3)如果,则称X 为R 外不可定义的。
(4)如果且,则称X 为R 全不可定义的。
上述定义说明如果集合X 为R 粗糙可定义,则可以确定U中某些元素是否属于X 或-X;如果集合X 为R 内不可定义,则意味着可以确定U 中某些元素是否属于-X,但不能确定U 中任一元素是否属于X;如果集合X为R外不可定义,则可以确定U中某些元素是否属于X,但不能确定U中任一元素是否属于-X;如果集合X 为R 全不可定义,则意味着不能确定U 中任一元素是否属于X或-X。
前面介绍了两种刻画粗糙集的方法。一种为用近似程度的精度来表示粗糙集的数字特征;另一种为用粗糙集的分类表示粗糙集的拓扑特征。粗糙集的数字特征表示了集合边界区域的大小,但没有说明边界区域的结构;而粗糙集的拓扑特征没有给出边界区域大小的信息,它提供的是边界区域的结构。
粗糙集理论中定义了粗糙隶属函数(Rough Membership Function)。通过使用不可分辨关系,定义元素x对集合X的粗糙隶属函数如下:
显然,0≤μRX(x)≤1。
定理1.2[60] 粗糙隶属函数有以下性质:
(1),当且仅当;
(2),当且仅当;
(3)当且仅当x∈BNR(X);
(4)如果R={(x,x)|x∈U},即R 是U 上的恒等关系,则是X的特征函数;
(5)如果(x,y)∈R,则RμX(x)= RμX(y);
(6),∀x∈U;
(7),,∀x∈U;
(8),,∀x∈U;
(9)如果X={X1,X2,…,Xn}是U的一族互不相交的子集,则。
1.1.4 知识约简与依赖性
知识约简是粗糙集理论的重要内容之一,在信息系统S=(U,AT,V,f)中,一般属性集AT往往不止含有一个属性,每一个属性a∈AT按照对象在其下的取值是否相同就可以决定论域U上的一个等价关系,记为IND(a)。同样,一组属性按照元素在该组属性下的取值是否均相同,也可以决定论域U上的一个等价关系。这些等价关系均各自决定了论域的划分。然而从形成对论域的划分不变这一角度来讲,并非所有的属性均是必不可少的。换句话说,在保持对论域分类能力不变的前提下,有些属性是多余的,删除冗余属性就是信息系统中的属性约简问题[4~7]。
设S=(U,AT,V,f)是一个信息系统,对任一子集P⊆AT,定义U上的二元关系IND(P)如下:
容易验证IND(P)是U上的等价关系。当P为单元集{a}时,IND(P)简记为IND(a)。如果(x,y)∈IND(P),则称x 和y 是P 不可分辨的[4]。
用U/IND(P)来表示U的一个划分,其中的任何元素[x]P称为等价类,这里[x]P={y∈U:(x,y)∈IND(P)}。由于属性子集P⊆AT对IND(P)的唯一决定性,所以常用U/P来替代U/IND(P)[4]。
设P 是一个属性子集,p∈P 是一个属性,如果IND(P)=IND(P-{p}),则称p在P中是不必要的,否则称为是必要的;如果每一个p∈P 均在P 中是必要的,则称P 是独立的,否则称P是依赖的,显然,一个独立属性集的任一子集也是独立的。
设Q⊂P,如果Q是独立的,且IND(Q)=IND(P),则称Q为P 的一个约简。一般来讲,一个属性子集P 可以有多个约简,P的所有约简所成的集合记为red(P),一个属性子集P 的所有必要的属性组成的集合称为它的核,记作core(P)[4]。
对一个属性集P,有:
定理1.3[4]core(P)= ∩red(P).
该定理表明:一组属性的核是该组属性所表达知识的不可消去的知识特征集合;另外它还可以作为约简计算的基础。
一般地,设P和Q是论域U上的两个等价关系,Q的P正域,记为posP(Q),被定义为:
可以看出,Q 的P 正域是U 中所有根据分类U/P 的信息可以准确地被划分到关系Q的等价类中去的对象的集合。
在决策信息系统中,条件属性和决策属性按照它们所决定的等价关系分别把论域作了两个分类,当要用条件属性决定决策属性,特别是要得到能最大程度地表达论域对象的确定性决策规则时,所要考察的正是哪些对象根据条件属性所提供的信息可以被准确地划分到决策属性为论域所提供的分类中去,这恰好就是一个分类相对于另一个分类的正域的概念[6~7]。
但从一组条件属性中去掉一些属性时将会导致属性对论域划分的改变,此时划分会变粗,即信息的粒度会变大。这种变化就会导致决策属性在其下的正域的改变,从而改变原系统中所隐含的决策知识。但是这种分析并非对去掉任一条件属性都适合。相对约简即是在保证条件属性对决策属性的正域不变的条件下,从条件属性组中删除多余的属性。为此有:
令P和Q为等价关系族,p∈P,如果
则称p为P中Q不必要的;否则p被称为P中Q必要的。如果P中的每一个属性都是Q必要的,则称P为Q独立的。
设S⊆P,S为P的Q约简,当且仅当S是P的Q独立子族,且posS(Q)=posP(Q),P的Q约简称为相对约简。用redQ(P)来表示所有P的Q约简所成的集合。P中所有Q必要的属性构成的集合称为P的Q核,简称为相对核,记为coreQ(P)[4]。
类似于约简和核,相对约简和相对核有如下关系。
定理1.4[4]coreQ(P)=∩redQ(P)。
设S=(U,AT,V,f)是一个信息系统,P,Q⊆AT是两个属性子集,称知识Q依赖于知识P(记作P⇒Q),当且仅当IND(P)⊆IND(Q);称知识P等价于知识Q(记作P⇔Q),当且仅当P⇒Q且Q⇒P;称知识P与知识Q独立,当且仅当P⇒Q且Q⇒P均不成立[4]。
对于属性子集P和Q,尽管它们之间可能不存在依赖关系,但就其所定义的某些概念而言却存在依赖关系,即一个(或几个)概念是另一个(或几个)概念的子概念,这就出现了知识的部分依赖。
部分依赖在决策规则的刻画方面起着重要作用,它可以决定决策表中的默认规则。既然是部分依赖就有一个依赖程度的问题,如果部分依赖的依赖度很低,则这种依赖的意义就很小,反之意义就很大。知识的依赖度可以由一个分类相对于另一个分类的正域的概念来刻画。
令k=γP(Q)=card(posP(Q))/card(U),
称知识Q是k度依赖于知识P的,记作P⇒kQ。
显然,0≤k≤1,当k=1时,Q完全依赖于P;
当k=0时,Q完全独立于P。
由依赖度的定义可以知道,当P⇒kQ时,由Q导出的论域的分类U/IND(Q)的正域覆盖了论域的k×100%的对象。这意味着,如果希望用知识P 来描述知识Q,那么论域中有k×100%的对象满足(适合)这种描述[4~7]。
知识依赖度k=γP(Q)=card(posP(Q))/card(U)是从整体角度刻画了一个知识依赖于另一个知识的程度。它不能反映这种依赖在决策知识的概念类中的分布情况。为此用,X∈U/IND(Q)来刻画通过知识P 能在多大程度上将知识Q 的概念X中的对象进行正确划分[4~7]。
上述的γP(Q)和γP(X)给出了知识P 关于知识Q 的分类能力的全部信息。
通过推导,可得下列性质。
定理1.5[4] 下列条件是等价的:
(1)P⇒Q;
(2)IND(P∪Q)=IND(P);
(3)对于所有X∈U/IND(Q),有。
定理1.6[4] 对知识依赖有下面的性质:
(1)如果P⇒Q且Q⇒R,则P⇒R;
(2)如果P⇒R且Q⇒R,则P∪Q⇒R;
(3)如果P⇒R∪Q,则P⇒R且P⇒Q;
(4)如果P⇒Q且Q∪R⇒T,则P∪R⇒T;
(5)如果P⇒Q且R⇒T,则P∪R⇒Q∪T;
(6)如果P⇒Q且P'⊇P,则P'⇒Q;
(7)如果P⇒Q且Q'⊆Q,则P⇒Q'。