《大数据技术体系详解:原理、架构与实践》是一部系统、深度讲解大数据技术栈的著作,从数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析、数据可视化6个层次讲解了整个大数据技术体系中所有核心技术的原理、架构与实践。不仅能让读者从宏观上全面认识整个大数据系统,而且还能让读者从微观上深入理解各种大数据技术的细节。
本书将以数据在大数据系统中的生命周期为线索,一共17章,分为七个部分:
第一部分(第1章):概述
主要介绍企业级大数据技术框架、技术实现方案和架构,包括Google的大数据技术栈和以Hadoop和Spark为代表的开源技术栈。
第二部分(第2-4章):数据收集
讲解大数据收集相关技术,主要涉及关系型数据收集工具Sqoop与Canel,非关系型数据收集系统Flume以及分布式消息队列Kafka。
第三部分(第5-7章):数据存储
讲解大数据存储相关技术,涉及数据存储格式,分布式文件系统以及分布式数据库三部分,包括Thrift、Protobuf、Avro、HDFS和HBase等。
第四部分(第8-9章):分布式协调与资源管理
讲解资源管理和服务协调相关技术,涉及资源管理和调度系统YARN以及资源协调系统Zookeeper。
第五部分(第10-13章):计算引擎
讲解计算引擎相关技术,涉及批处理、交互式处理以及流式实时处理三类引擎,包括MapReduce、Spark、Impala/Presto、Storm等常用技术。
第六部分(第14-16章):数据分析
讲解数据分析相关技术,涉及基于数据分析语言HQL与SQL,大数据统一编程模型及机器学习库等。
第七部分(第17章):应用案例
讲解了3个企业级大数据综合应用案例,包括Lambda架构、基于大数据技术的数据仓库、用户行为实时统计系统。
目录
第一部分 概述篇
第1章 企业级大数据技术体系概述 2
第二部分 数据收集篇
第2章 关系型数据的收集 20
第3章 非关系型数据的收集 36
第4章 分布式消息队列Kafka 51
第三部分 数据存储篇
第5章 数据序列化与文件存储格式 70
第6章 分布式文件系统 90
第7章 分布式结构化存储系统 104
第四部分 分布式协调与资源管理篇
第8章 分布式协调服务ZooKeeper 130
第9章 资源管理与调度系统YARN 146
下载体验