1.3 国内外研究现状

根据相关数据显示,目前的云存储数据信息已占据世界上约20%的数据资源,能够把抽象数据有效地提供给客户。云计算被正式提出以来,其发展的前景,在全球范围内一直处于良好状态,为国际经济发展间接提供了1.2万亿美元的注资。世界上的云处理器规模继续增长,计算模式继续改善。云计算将是世界上一个重要的发展项目。云的安全性和透明度为更多的企业和个人提供更好的服务,满足世界上的大多数人当前需求的服务,有利于世界经济的稳定发展。

在云计算排名初期,中国科学家利用互联网的透明资源储备技术在许多方面得以应用。随着科学技术的不断进步,云计算的应用越来越频繁,为政府建设基于云计算的经济社会保障提供了软环境,建立了专门部门和国家科学研究部门,直接负责云计算和发展活动的发展。据有效数据显示,2011年我国为云计算的投资金额已超过2.86亿美元,并直接推动了我国云计算的快速发展。通过以上数据可以看出,云计算为人们的生活和工作提供了一种更便捷有效的方式,符合我国经济高速发展的时代。

目前,已经出现了一些多源异构的数据集成方法。早在20世纪70年代中期,就有解决多数据库集成问题的方法,那时主要是采用全局模式的集成方法。此后Mcleod等人提出了联邦数据库系统的概念,但由于缺乏必要的标准,联邦数据库只能在一定的限制条件下实现[4]-[5]。此外,G. Wiederhold最早提出了基于中介器/包装器的集成方法构架,这种构架能够同时集成结构化数据源和非结构化或半结构化的数据源[6]。除了上述的方法,比较典型的还有数据仓库。该方法是把各个数据源复制到同一处,这样用户可以访问数据仓库,如同访问一般数据库一样。但由于数据仓库系统昂贵的投资费用、项目实施周期长、项目成功率低等原因制约了数据仓库在中小型企业或数据积累少的企业解决异构数据源整合和集成需求的应用[7]

面向云计算平台中存在各种异构的信息系统,数据集成和数据融合的研究就是针对分布在异构数据源中的数据进行抽取、转换、集成和融合,建立一个稳定的数据处理环节,为用户提供统一信息存取接口[8]。异构数据源之间的数据转换方式主要有:

(1)对于数据采集时存在的数据格式标准不同的情况,可以定义统一格式进行异构数据源数据的集成。XML是现在比较流行的半结构化语言。1998年W3C(World Wide Web Consortium,万维网联盟)创建XML后,因为它解决了在不同系统中转换和表示数据的问题,所以广受欢迎[9]

(2)使用数据库中间件解决数据库存在的异构性。数据库中间件是介于访问客户端与服务器之间的中介结构,通过合理构建,能够完成异构数据源的相互转换,可以通过SQL请求将得到的数据转换为XML文件,再将XML文件的数据文件转换成SQL语言文件[10],将数据导入数据库的方式解决,或者使用数据库系统中自带的转换工具,但由于其都是针对各个数据库紧密耦合的软件,通用性不高。

(3)虚拟数据库方式。该方式将包含在各个数据源中的信息描述成一个全局的视图。当用户提出一种请求语言来访问系统并对全局视图进行操作时,请求解析器负责将该请求语言解析成对应各本地数据库源的子请求,并将这些子请求转换成本地数据源能够执行的格式,在对应的数据源中执行请求,最后融合子请求结果并处理请求结果中可能出现的冲突和不一致性,将结果转换成用户需求的格式并传输给用户。

(4)物化视图方法。物化视图是缓存的结果集,它被存储为具体表,对查询能够做出更快的响应,因为它们不要求每次都用资源动态构建视图[11],在信息集成查询系统中,它们将对应请求的查询视图计算后直接物理存储,以空间换取时间,大大缩短了查询时间。

近年来,数据集成及数据融合在许多商业应用及科学研究中都变得非常重要。其集成了网络上多数据库及异构数据源,为用户提供异构数据源的统一查询视图,对数据集成的方案在电子商务中基于XML的数据库中间件异构数据库数据转换方法[12],实现了由关系数据到XML数据的转换和集成。主要从事该课题研究的国防科技大学及中国科学技术大学近年来不断涌现出针对该课题的新成果,前几年集中于多种分布式数据库及元数据的研究,近几年集中于异构数据源的基础,提出了物化视图查询及整合技术,基于元数据的分布式数据集成,数据仓库中的物化视图,基于本体异构数据源集成,多知识融合异构数据源集成[13]-[15]等方法。这些方法都是针对数据源存在的异构问题,并没有结合云计算平台下分布式数据的特征。

总之,该课题研究已经成为信息融合部分的研究热点,国内外相关技术层出不穷,但还未形成一个处理云计算平台的数据信息的统一平台,我们要在结合国内外先进技术方案的基础上,进行创新,实现一种适合云计算平台的异构数据集成及数据融合方案,从而建立一个稳定的信息处理环节,同时方便云计算平台更多业务应用的扩展。