- 重复数据删除技术:面向大数据管理的缩减技术
- 付印金 肖侬编著
- 1586字
- 2022-07-29 14:41:29
创作背景
大数据时代的海量数据管理压力催生了很多方法来缓解大数据治理。面对企业数据量的急剧膨胀,需要不断购置大量的存储设备来应对不断增长的存储需求。然而,单纯地提高存储容量,并不能从根本上解决问题。伴随着数据量增长,存储设备采购开支、存储管理成本和数据中心能耗使企业越来越难以承担。特别是海量数据存储管理的复杂性,容易造成存储资源浪费和利用效率低下。因此,为解决信息的急剧增长问题,堵住数据“井喷”,基于数据缩减的高效存储理念油然而生,旨在缓解存储系统的空间增长问题,缩减数据占用空间,简化存储管理,最大程度地利用已有资源,降低成本。近十年来,人们对数据缩减的需求越来越大,关键词“压缩软件”在百度指数中搜索热度逐年提升,重复数据删除(Deduplication)也受到持续关注,如图1所示。
图1 数据缩减技术关键词搜索热度
目前,数据压缩和重复数据删除是实现高效存储的两种典型的数据缩减技术。传统的数据压缩技术通过对数据重新编码来降低文件数据冗余度。然而,数据压缩仅能处理文件内部的数据冗余,并且由于需要进行细粒度的字节级比对,处理性能低,无法满足大数据时代的海量复杂数据管理需求。由此催生了重复数据删除技术,它能在文件级、块级和段级进行更广泛的比对,删除大规模共享数据集中重复的数据内容,从而实现快速缩减海量数据容量的目的。
如图2所示,重复数据删除在数据容量缩减上的绝对优势,还能极大地节省企业数据中心的能耗、制冷、管理和场地等方面的成本。尤其是移动终端的普及使得“数据上云”需求提升明显,重复数据删除技术对数据上云至关重要,不仅能够节省用户的数据云存储成本,还能避免重复数据传输过程中的浪费,提升网络带宽利用率。
图2 数据缩减技术对比
重复数据删除相关技术研究早在20世纪90年代就被各国学者广泛研究,主要围绕数字文档中的副本和重复内容检测进行深入研究。2000年左右,出现了不少重复数据删除技术研究成果,比如通过检测重复和相似数据减少数据冗余以节省存储空间,还有利用重复数据删除思想提升因特网带宽限制下的数据传输性能。
2006年,图灵奖得主Jim Gray提出观点“磁带已死,磁盘是新磁带,闪存是新磁盘,随机存储器局部性是为王道。”当随机访问的硬盘代替了顺序访问的磁带,备份和归档存储系统可以获得相当惊人的速度提升,但成本却很难跟磁带库媲美。而基于重复数据删除的磁盘存储刚好可以弥补这一缺陷,通过节省容量使磁盘备份变得高速又经济。这已经作为企业数据保护中新一代存储形式,具有代表性的产品有Data Domain公司的DDFS和HP公司的D2D系列。
近十年来,重复数据删除技术已经成为存储与网络方向的学术研究热点,在产业界也获得了广泛应用,几乎所有存储企业都推出了重复数据删除技术相关的存储产品。结合Ganter的存储技术成熟度曲线,我们画出了如图3所示的重复数据删除技术成熟度曲线。2017年,重复数据删除技术从稳步爬升恢复期进入了生产成熟期,就在此时,我们决定写一本关于重复数据删除技术的专业书。
图3 重复数据删除技术成熟度曲线图
笔者研究重复数据删除技术的这些年,经常会被问到一个问题:“重复数据删除会不会影响数据存储的可靠性?”通常认为,在大数据存储系统中,为了维护大规模复杂系统的可靠稳定运行,需要配置大量的设备进行容错,并保留相应的数据副本或校验数据冗余。然而,重复数据删除技术貌似刚好做了一个逆向操作,违背了大数据存储系统可靠稳定运行的设计原则。实际上,重复数据删除所删除的数据是大数据存储系统上原有文件系统或设备驱动所无法发现和管理的重复数据,而大数据存储系统的可靠容错机制所需的副本和校验数据是原有系统可管理和控制的冗余,并不会被重复数据删除操作删除。例如:两个文件名不同但内容相同的文件,在原有大数据存储系统中各保留两份副本支持容错,重复数据删除只会发现并删除其中一个文件的两份副本。因此,这两者虽然目的相悖,但却因为存储管理层次和实现方式不同可以实现共存。