《Hadoop+Spark生态系统操作与实战指南》用于Hadoop+Spark快速上手,全面解析Hadoop和Spark生态系统,通过原理解说和实例操作每一个组件,让读者能够轻松跨入大数据分析与开发的大门。

全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作。第2部分(第8~11章)讲解Spark的原生态组件,包括SparkCore、SparkSQL、SparkStreaming、DataFrame,以及介绍Scala、SparkAPI、SparkSQL、SparkStreaming、DataFrame原理和CDH版本环境下实战操作,其中Flume和Kafka属于Apache*开源项目也放在本篇讲解。第3部分(第12章)讲解两个大数据项目,包络网页日志离线项目和实时项目,在CDH版本环境下通过这两个项目将Hadoop和Spark原生态组件进行整合,一步步带领读者学习和实战操作。

本书适合想要快速掌握大数据技术的初学者,也适合作为高等院校和培训机构相关专业师生的教学参考书和实验用书。

目录

知识兔

第1章 Hadoop概述 1
第2章 Hadoop集群搭建 22
第3章 Hadoop基础与原理 56
第4章 ZooKeeper实战 72
第5章 MapReduce实战 88
第6章 HBase实战 122
第7章 Hive实战 141
第8章 Scala实战 162
第9章 Flume实战 207
第10章 Kafka实战 215
第11章 Spark实战 234
第12章 大数据网站日志分析项目267

下载体验

请输入密码查看内容!

如何获取密码?

 

点击下载