前言

近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。大数据技术快速火热,大数据开发工程师更是供不应求。本书是一本Hadoop+Spark快速上手的书,从Hadoop生态系统和Spark生态系统全面原理解析和实战操作每一个组件,每一个知识点都讲得十分细致,让读者能够轻松地跨入大数据开发工程师的大门。

大数据工程师薪资

近几年大数据岗位尤其火热,大数据开发工程师供不应求,市面上大数据开发工程师起步就是8千元,1年工作经验1万2千元,2年工作经验1万5千元,3年工作经验2万以上。根据每个人自身学习能力不同,有人2年就可以达到2万元以上。

下图是神州数码于2017年6月6日发布的一则招聘信息。

本书内容

全书共12章,分为3个部分,第1部分(第1~7章)讲解了Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及如何对MapReduce、HDFS、ZooKeeper、HBase、Hive进行原理介绍和Apache版本环境下实战的操作。第2部分(第8~11章)讲解Spark的原生态组件,包括Spark Core、Spark SQL、Spark Streaming、DataFrame,以及如何对Scala、Spark API、Spark SQL、Spark Streaming、DataFrame进行原理介绍和CDH版本环境下实战的操作,其中Flume和Kafka属于Apache顶级开源项目也放在本篇讲解。第3部分(第12章)讲解大数据项目,包络网页日志离线项目和实时项目,在CDH版本环境下通过两个项目将Hadoop和Spark原生态组件进行整合,一步步带领读者实战大数据项目。

本书特色

本书是一本Hadoop + Spark的快速入门书籍,以通俗易懂的方式介绍了Hadoop + Spark原生态组件的原理、实战操作以及集群搭建方面的知识。其中,Hadoop原生态组件包括:MapReduce、HDFS、ZooKeeper、HBase、Hive; Spark原生态组件包括:Spark Core、Spark SQL、Spark Streaming、Dataframe;同时包括Apache版本和CDH5版本的Hadoop集群搭建。本书的特点是:注重“实战”训练,强调知识系统性,关注内容实用性。

(1)本书从培训角度对读者简述Hadoop + Spark中常用组件的原理和实战操作,让读者快速了解组件原理和功能使用。

(2)每一个操作都配有实例代码或者图片来帮助理解,每一章的最后还有小节,以归纳总结本章的内容,帮助读者对Hadoop + Spark原生态系统有一个大的全局观。

(3)目前市面上关于Hadoop的书很多,关于Spark的书也很多,但是很少有对Hadoop +Spark结合进行讲解。本书首先讲解Hadoop + Spark原理,接着讲解Hadoop + Spark原生态组件的实例操作,最后结合大数据网站日志离线和实时两个项目融合Hadoop+Spark所有生态系统功能,使读者对本书有一个由浅入深且快速上手的过程。

本书适合读者

本书适合Hadoop+Spark的初学者,希望深入了解Hadoop+Spark安装部署、开发优化的大数据工程师,希望深入了解Hadoop+Spark管理、业务框架扩展的大数据架构师,以及任何对Hadoop+Spark相关技术感兴趣的读者。

本书代码、软件、文档下载

本书代码、软件、文档下载地址(注意数字和字母大小写)如下:

http://pan.baidu.com/s/1cCi0k2

如果下载有问题,请联系电子邮箱booksaga@163.com,邮件主题为“Hadoop+Spark生态系统与实战指南”。

本书作者

余辉,中国科学院大学硕士研究生毕业,研究方向为云计算和大数据。现供职于某上市公司技术经理,并在Oracle OAEC人才产业集团大数据学院(http://www.oracleoaec.com.cn/)担任大数据讲师。曾在清华大学电子工程系NGNLab研究室(http://ngn.ee.tsinghua.edu.cn/)担任软件工程师。

已发表两篇大数据论文:《微博舆情的Hadoop存储和管理平台设计与实现》和《跨媒体多源网络舆情分析系统设计与实现》

博客:http://blog.csdn.net/silentwolfyh

微博:http://weibo.com/u/3195228233

电子邮箱:yuhuiqh2009@163.com

致谢

赶在儿子1岁生日之际,赶在我告别30岁之际,我撰写《Hadoop+Spark生态系统操作与实战指南》一书,作为我儿子的生日礼物。感谢父母提供了良好的生活环境,感谢舅舅、舅妈提供了良好的学习平台,感谢我的老婆、姐姐、姐夫在生活上对我的支持和奉献。最后,感谢清华工作和学习的那些时光,清华六年,我学会了生存技能、找到了研究方向、培养了生活习惯。

余辉

2017年7月