1.1.2 大数据管理挑战

云计算是大数据存储管理的基础支撑技术。IDC研究预测:2020年,有超过40%的数据将会被云所“接触”,即在云中创建、发布、存储、操作,或者被云服务传递、暂存以及保护,而在2013年这个比例还不到20%。大数据着眼于数据采集、分析和挖掘,而云计算着眼于IT基础架构。大数据为云计算提供了有价值的应用,而云计算为大数据提供了有力的平台和工具。基于云计算架构的存储管理已然成为大数据研究和应用的核心组件,各种改善人们日常生活、提高企业运营能力的实际应用都离不开数据的存取、分析和管理。如图1-3所示,大数据存储管理系统作为大数据存取的载体,相比于传统的存储系统在扩展性、可靠性、安全性、能耗及高效性方面都具有很多技术方面的挑战[5]

图1-3 大数据管理挑战

扩展问题:存储系统容量随数据量增长而不断扩展。当前大数据的规模已经达到EB级别,将来甚至会达到ZB级,这个数量级别的存储容量是无法通过单纯的往网络存储池添加硬盘来实现的。即使可以通过纵向扩容达到更大数据规模的需求,其高额的硬件及管理软件成本也是数据存储管理中心无法承担的。因此,对于大数据存储系统来说横向扩展才能够很好地达到巨量数据规模的需求,才能够实现存储系统按需动态规模的增减。当存储容量或者带宽不足以满足现有要求时,横向扩容可以通过添加存储节点来达到扩容的目的。在大数据应用领域,每一个节点不需要高价的磁盘阵列,相反只需要一定数量的各种类型的硬盘以独立工作单元的方式进行管理。这些节点甚至可以是一些成本较为低廉的日常用机器。横向扩容意味着数据管理软件将要统筹更多的节点,面对更大的压力。如果采用集中式的元数据节点管理,主节点的能力可能成为整个大数据存储系统的性能瓶颈,尤其是当规模扩大到成千上万个节点时,单元数据管理节点的模式是不可靠的;如果采用分布式元数据节点集群管理,软件的开发成本和系统本身的复杂度相应就会提高。

可靠问题:由于数据中心存储的数据量十分庞大以及管理系统的复杂性较高,这给海量数据管理带来了一定的挑战;另外,数据中心为了控制成本从而导致大量廉价存储设备的引入,导致数据极易由于硬件设备故障而丢失,而近年以来一些大型公司因为各种原因所导致的数据服务中断等事故也让人们开始担忧自己存储在数据中心的数据可靠性问题。因而对于大数据的存储系统来说,一是需要强大的容错软件管理能力,二是需要更加有效的运维系统来监控各种故障的发生,尤其是对于大数据存储系统可能拥有十万级别的硬盘,硬盘故障可能每天都会发生。如果大规模数据存储系统的某个存储设备发生故障,其中的存储数据就会丢失,从而造成损失。这一问题在大数据时代显得尤为突出。因此,如何提高大规模数据中心中所存储数据的可靠性成为近年来的一个研究重点。

安全问题:随着系统构成规模和复杂提升引起数据安全管理及可靠性挑战。大数据时代数据的快速变化除了要求有新的数据处理技术应对之外,也给隐私保护带来了新的挑战。虽然大数据的存储访问位于企业的数据中心内部,对外部用户已经具有防火墙隔离功能,但是对企业内部来说不同部门的数据也并非是完全可以共享的。为每一个部门建立一个大数据的存储管理平台并不现实,较为实用的方法类似于传统的数据库访问,所有部门共享一个大数据存储池,通过添加必要的访问控制来实现数据访问的安全性。现有隐私保护技术主要基于静态数据集,而在现实中数据模式和数据内容时刻都在发生着变化。因此在这种更加复杂的环境下实现对动态数据的利用和隐私保护将更具挑战。

效率问题:系统扩展的同时保持存储空间和网络带宽的高利用率。面对数据量的急剧膨胀,企业需要不断购置大量的存储设备来应对不断增长的存储需求。然而,存储管理成本、占用空间、制冷能力、能耗等问题变得越来越严重,让企业用户头疼不已。面对这种情况,高效存储理念应运而生,它旨在缓解存储系统的空间增长问题,缩减数据占用空间,简化存储管理,最大限度地利用已有资源,降低成本。当前的存储环境中存在着太多的隐性浪费,导致企业对存储系统的投入大部分打了水漂,资源与数据价值不匹配的现象也很常见。存储利用率直接关系到存储投资回报,高效存储显然是要研究一个重要技术挑战。我们需要通过数据整合、虚拟化、自动精简、自动分层存储和数据缩减技术提高IT资源利用率。

能耗问题:数据中心随系统规模扩展带来的能耗挑战。在能源价格上涨、数据中心存储规模不断扩大的今天,高能耗已逐渐成为制约大数据快速发展的一个主要瓶颈。从小型集群到大规模数据中心都面临着降低能耗的问题,但是尚未引起足够多的重视,相关的研究成果也较少。在大数据管理系统中,能耗主要由两大部分组成:硬件能耗和软件能耗,二者之中又以硬件能耗为主。理想状态下,整个大数据管理系统的能耗应该和系统利用率呈正比。但是实际情况并不像预期情况,系统利用率为零的时候仍然有能量消耗。绝大部分的电能用以确保服务器处于闲置状态,以应对突如其来的网络流量高峰,这种类型的功耗最高可以占到数据中心所有能耗的80%。从已有的一些研究成果来看,可以从新型低功耗硬件和引入可再生的新能源两个方面来改善大数据能耗问题。