《Hadoop大数据处理》以大数据处理系统的三大关键要素——“存储”、“计算”与“容错”为起点,深入浅出地介绍了如何应用Hadoop这一高性能分布式技术完成大数据处理任务。本书不仅包含了应用Hadoop进行大数据处理的实践性知识和示例,还以图文并茂的形式系统性地揭示了Hadoop技术族中关键组件的运行原理和优化手段,为读者进一步提升Hadoop应用技巧和运行效率分享了颇具价值的参考。

《Hadoop大数据处理》共10章,涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce计算模式、应用HDFS存储大数据、HBase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与维护、基于MapReduce的数据挖掘实践及面向未来的大数据处理技术。后附有一个在Windows环境下搭建Hadoop开发及调试环境的参考手册。

《Hadoop大数据处理》适合需要应用Hadoop处理大数据的程序员、架构师和产品经理作为技术参考和培训资料,也可作为高校研究生和本科生教材。

目录

知识兔

D11章大数据处理概论1
1.1什么是大数据2
1.2数据处理平台的基础架构5
1.3大数据处理的存储7
1.3.1提升容量7
1.3.2提升吞吐量11
1.4大数据处理的计算模式17
1.4.1多处理技术17
1.4.2并行计算20
1.5大数据处理系统的容错性26
1.5.1数据存储容错27
1.5.2计算任务容错28
1.6大数据处理的云计算变革30
本章参考文献32
D12章基于Hadoop的大数据处理架构35
2.1Google核心云计算技术35
2.1.1并行计算编程模型MapReduce36
2.1.2分布式文件系统GFS38
2.1.3分布式结构化数据存储BigTable39
2.2Hadoop云计算技术及发展41
2.2.1Hadoop的由来41
2.2.2Hadoop原理与运行机制42
2.2.3Hadoop相关技术及简介45
2.2.4Hadoop技术的发展与演进47
2.3基于云计算的大数据处理架构48
2.4基于云计算的大数据处理技术的应用51
2.4.1百度51
2.4.2阿里巴巴56
2.4.3腾讯58
2.4.4华为60
2.4.5中国移动62
2.5Hadoop运行实践63
本章参考文献64
D13章MapReduce计算模式66
3.1MapReduce原理66
3.2MapReduce工作机制69
3.2.1MapReduce运行框架的组件70
3.2.2MapReduce作业的运行流程70
3.2.3作业调度72
3.2.4异常处理73
3.3MapReduce应用开发74
3.3.1MapReduce应用开发流程74
3.3.2通过Web界面分析MapReduce应用76
3.3.3MapReduce任务执行的单步跟踪78
3.3.4多个MapReduce过程的组合模式79
3.3.5应用其他语言编写MapReduce程序81
3.3.6不同数据源的数据联结(Join)82
3.4MapReduce设计模式87
3.4.1计数(Counting)88
3.4.2分类(Classfication)88
3.4.3过滤处理(Filtering)89
3.4.4排序(Sorting)89
3.4.5去重计数(DistinctCounting)90
3.4.6相关计数(Cross-Correlation)91
3.5MapReduce算法实践92
3.5.1*短路径算法92
3.5.2反向索引算法94
3.5.3PageRank算法95
3.6MapReduce性能调优97
3.6.1MapReduce参数配置优化97
3.6.2应用Cominber减少数据传输99
3.6.3启用数据压缩100
3.6.4应用预测执行功能101
3.6.5重用JVM101
本章参考文献102
D14章应用HDFS存储大数据103
4.1大数据的云存储需求103
4.2HDFS架构与流程104
4.2.1系统框架104
4.2.2数据读取过程105
4.2.3数据写入过程106
4.3文件访问与控制108
4.3.1基于命令行的文件管理108
4.3.2通过API操作文件110
4.4HDFS性能优化114
4.4.1调整数据块尺寸114
4.4.2规划网络与节点114
4.4.3调整服务队列数量116
4.4.4预留磁盘空间116
4.4.5存储平衡117
4.4.6根据节点功能优化磁盘配置117
4.4.7其他参数119
4.5HDFS的小文件存储问题119
4.5.1HadoopArchive工具120
4.5.2CombineFileInputFormat121
4.5.3SequenceFile格式121
4.5.4相关研究122
4.6HDFS的高可用性问题123
4.6.1基于配置的元数据备份123
4.6.2基于DRBD的元数据备份124
4.6.3SecondaryNameNode/CheckpointNode125
4.6.4BackupNode125
4.6.5NameNode热备份126
4.6.6HDFS的HA方案总结126
本章参考文献127
D15章HBase大数据库128
5.1大数据环境下的数据库128
5.2HBase架构与原理129
5.2.1系统架构及组件129
5.2.2数据模型与物理存储131
5.2.3RegionServer的查找135
5.2.4物理部署与读写流程136
5.3管理HBase中的数据138
5.3.1Shell138
5.3.2JavaAPI141
5.3.3非Java语言访问146
5.4从RDBMS到HBase147
5.4.1行到列与主键到行关键字149
5.4.2联合查询(Join)与去范例化(Denormalization)151
5.5在HBase上运行MapReduce152
5.6HBase性能优化155
5.6.1参数配置优化155
5.6.2表设计优化156
5.6.3更新数据操作优化157
5.6.4读数据操作优化158
5.6.5数据压缩159
5.6.6JVMGC优化159
5.6.7负载均衡160
5.6.8性能测试工具160
本章参考文献161
D16章大数据的分析处理162
6.1大数据的分析处理概述162
6.2Hive163
6.2.1系统架构及组件163
6.2.2Hive数据结构164
6.2.3数据存储格式166
6.2.4Hive支持的数据类型168
6.2.5应用HiveQL访问数据170
6.2.6自定义函数扩展功能175
6.3Pig177
6.3.1Pig架构178
6.3.2PigLatin语言179
6.3.3应用Pig处理数据184
6.4Hive与Pig的对比187
本章参考文献188
D17章Hadoop环境下的数据整合189
7.1Hadoop计算环境下的数据整合问题189
7.2数据库整合工具Sqoop191
7.2.1应用Sqoop导入数据192
7.2.2应用Sqoop导出数据195
7.2.3Sqoop与Hive结合196
7.2.4Sqoop对大对象数据的处理197
7.3Hadoop平台内部数据整合工具HCatalog197
7.3.1HCatalog的需求与实现198
7.3.2MapReduce应用HCatalog管理数据202
7.3.3Pig应用HCatalog管理数据204
7.3.4HCatalog的命令行与通知功能205
本章参考文献207
D18章Hadoop集群的管理与维护208
8.1云计算平台的管理体系208
8.2ZooKeeper——集群中的配置管理与协调者211
8.2.1集群环境下的配置管理211
8.2.2ZooKeeper架构212
8.2.3ZooKeeper的数据模型213
8.3Hadoop集群监控的基础组件214
8.3.1Nagios214
8.3.2Ganglia217
8.3.3JMX219
8.4Ambari——Hadoop集群部署与监控集成工具220
8.5基于Cacti的Hadoop集群服务器监控223
8.6Chukwa——集群日志收集及分析225
8.7基于Kerberos的Hadoop安全管理227
8.8Hadoop集群管理工具分析230
本章参考文献231
D19章基于MapReduce的数据挖掘232
9.1数据挖掘及其分布式并行化232
9.2基于MapReduce的数据挖掘与Mahout237
9.3经典数据挖掘算法的MapReduce实例242
9.3.1矩阵乘法243
9.3.2相似度计算246
9.4基于云计算的数据挖掘实践及面临的挑战252
本章参考文献256
D110章面向未来的大数据处理257
10.1下一代计算框架YARN257
10.2大数据的实时交互式分析260
10.2.1GoogleDremel261
10.2.2ClouderaImpala265
10.3大数据的图计算266
10.3.1BSP模型267
10.3.2GooglePregel计算框架268
10.3.3ApacheHama开源项目271
本章参考文献275
附录基于Cygwin的Hadoop环境搭建276
附录A安装和配置Cygwin276
附录B安装和配置Hadoop281
附录C运行示例程序验证Hadoop安装285
附录D安装和配置Eclipse下的Hadoop开发环境286
 

下载体验

请输入密码查看内容!

如何获取密码?

 

点击下载