2.5 典型的大数据计算架构

目前,典型的大数据计算架构有Hadoop、Spark和Storm。

Hadoop是Apache软件基金会旗下的一个开源计算框架,Hadoop的优势在于处理大规模分布式数据的能力,所有要处理的数据都要求在本地,即Hadoop的数据处理工作在硬盘层面,任务的处理是高延迟的,也就是说Hadoop在实时性数据处理上不占优势。Hadoop是最基础的分布式计算架构。

Spark是基于内存的大数据计算框架,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高伸缩性,Spark处理数据是准实时的,先收集一段时间的数据再进行统一处理。

Storm是基于拓扑的流数据实时计算框架,即完全实时,来一条数据处理一条数据。不同的机制决定了Spark和Storm适用场景的不同,如股票交易时,股价的变化不是按秒计算的而是以毫秒计算,Spark实时计算延迟度是秒级,无法用于此类场景,而Storm的实时计算延迟度是毫秒级,所以适用于股票高频交易的场景。

以上三个典型的大数据计算架构将在本书后续内容中进行深入介绍。