《Hadoop权威指南（第2版）》—

Hadoop权威指南（第2版）

周敏奇, 王晓玲, 金澈清, 钱卫宁译

出版时间：2011年06月

Google帝国的基石是什么？MapReduce算法！开源项目Hadoop作为它的一个具体实现，可以轻松用于构建和维护一个可靠性高、伸缩性强的分布式系统。
作者Tom White作为Hadoop的项目负责人，通过自己对Hadoop和Hadoop社区的理解，化繁为简，用浅显易懂的语言介绍了Hadoop能做什么，怎么做才能充分发挥Hadoop的优势，Hadoop能够和哪些开源工具结合使用。这是一本主题丰富、讲解透彻的权威参考书，可帮助程序员了解分析海量数据集的细枝末节，帮助管理员掌握搭建和运行Hadoop集群的具体过程。
经过修订和更新的第2版概述了Hadoop的最新动态，例如Hive、Sqoop和Avro等。书中还提供了案例分析来帮助读者了解如何用Hadoop来解决具体的问题。如果想充分利用数据，从中挖掘出有价值的见解或者观点，毫无疑问，这本书将是您不可或缺的重要参考。

使用Hadoop分布式文件系统(HDFS)来存储大型数据集，然后用MapReduce对这些数据集执行分布式计算
■ Hadoop的数据和I/O构建块(用于压缩、数据完整性、序列化和持久处理)
■ 探究MapReduce应用开发中常见的陷阱和高级特性
■ 设计、构建和管理Hadoop专用集群或在云上运行Hadoop
■ 使用Pig这种高级的查询语言来进行大规模数据处理
■ 使用Hive(Hadoop的数据仓库系统)来分析数据集
■ 使用HBase(Hadoop的数据库)来处理结构化数据和半结构化数据
■ 深入介绍Zookeeper，一个用于构建分布式系统的协作类型工具箱

“有了这本权威指南，读者有机会通过大师的手笔来学习Hadoop——在掌握技术的同时，领略作者的睿智和清晰的文风。”
——Hadoop创始人，Doug Cutting于Cloudera

Tom White从2007年以来，一直担任Apache Hadoop项目负责人。他是Apache软件基金会的成员之一，同时也是Cloudera的
一名工程师。Tom为oreilly.com 、java.net和IBM的developerWorks写过大量文章，并经常在很多行业大会上发表演讲。

目录
产品信息
关于作者
封面介绍

第1章初识Hadoop
数据！数据！
数据存储与分析
与其他系统相比
关系型数据库管理系统
网格计算
志愿计算
Hadoop发展简史
Apache Hadoop和Hadoop生态圈
第2章关于MapReduce
一个气象数据集
数据的格式
使用Unix工具进行数据分析
使用Hadoop分析数据
map阶段和reduce阶段
Java MapReduce
横向扩展
数据流
combiner
运行分布式的MapReduce作业
Hadoop的Streaming
Ruby版本
Python版本
Hadoop的Pipes
编译运行
第3章 Hadoop分布式文件系统
HDFS的设计
HDFS的概念
数据块
namenode和datanode
命令行接口
基本文件系统操作
Hadoop文件系统
接口
Java接口
从Hadoop URL中读取数据
通过FileSystem API读取数据
写入数据
目录
查询文件系统
删除数据
数据流
文件读取剖析
文件写入剖析
一致模型
通过 distcp并行复制
保持 HDFS 集群的均衡
Hadoop存档
使用Hadoop存档工具
不足
第4章 Hadoop I/O
数据完整性
HDFS的数据完整性
LocalFileSystem
ChecksumFileSystem
压缩
codec
压缩和输入分片
在MapReduce中使用压缩
序列化
Writable接口
Writable类
实现定制的Writable类型
序列化框架
Avro
基于文件的数据结构
SequenceFile
MapFile
第5章 MapReduce应用开发
配置API
合并多个源文件
可变的扩展
配置开发环境
配置管理
辅助类GenericOptionsParser，
Tool和ToolRunner
编写单元测试
mapper
reducer
本地运行测试数据
在本地作业运行器上运行作业
测试驱动程序
在集群上运行
打包
启动作业
MapReduce的Web界面
获取结果
作业调试
使用远程调试器
作业调优
分析任务
MapReduce的工作流
将问题分解成MapReduce作业
运行独立的作业
第6章 MapReduce的工作机制
剖析MapReduce作业运行机制
作业的提交
作业的初始化
任务的分配
任务的执行
进度和状态的更新
作业的完成
失败
任务失败
tasktracker失败
jobtracker失败
作业的调度
Fair Scheduler
Capacity Scheduler
shuffle和排序
map端
reduce端
配置的调优
任务的执行
推测执行
任务JVM重用
跳过坏记录
任务执行环境
第7章 MapReduce的类型与格式
MapReduce的类型
默认的MapReduce作业
输入格式
输入分片与记录
文本输入
二进制输入
多种输入
数据库输入(和输出)
输出格式
文本输出
二进制输出
多个输出
延迟输出
数据库输出
第8章 MapReduce的特性
计数器
内置计数器
用户定义的Java计数器
用户定义的Streaming计数器
排序
准备
部分排序
全排序
辅助排序
连接
map端连接
reduce端连接
边数据分布
利用JobConf来配置作业
分布式缓存
MapReduce库类
第9章构建Hadoop集群
集群规范
网络拓扑
集群的构建和安装
安装Java
创建Hadoop用户
安装Hadoop
测试安装
SSH配置
Hadoop配置
配置管理
环境设置
Hadoop守护进程的关键属性
Hadoop守护进程的地址和端口
Hadoop的其他属性
创建用户帐号
安全性
Kerberos和Hadoop
委托令牌
其他安全性改进
利用基准测试程序测试Hadoop集群
Hadoop基准测试程序
用户的作业
云端的Hadoop
Amazon EC2上的Hadoop
第10章管理Hadoop
HDFS
永久性数据结构
安全模式
日志审计
工具
监控
日志
度量
Java管理扩展(JMX)
维护
日常管理过程
委任和解除节点
升级
第11章 Pig简介
安装与运行Pig
执行类型
运行Pig程序
Grunt
Pig Latin编辑器
示例
生成示例
与数据库比较
Pig Latin
结构
语句
表达式
类型
模式
函数
用户自定义函数
过滤UDF
计算UDF
加载UDF
数据处理操作
加载和存储数据
过滤数据
分组与连接数据
对数据进行排序
组合和切分数据
Pig实战
并行处理
参数替换
第12章 Hive简介
安装Hive
Hive外壳环境
示例
运行Hive
配置Hive
Hive服务
metastore
和传统数据库进行比较
读时模式vs.写时模式
更新、事务和索引
HiveQL
数据类型
操作与函数
表
托管表和外部表
分区和桶
存储格式
导入数据
表的修改
表的丢弃
查询数据
排序和聚集
MapReduce脚本
连接
子查询
视图
用户定义函数
编写UDF
编写UDAF
第13章 HBase
HBase基础
背景
概念
数据模型的“旋风之旅”
实现
安装
测试驱动
客户端
Java
Avro、REST和Thrift
示例
模式
加载数据
Web查询
HBase和RDBMS的比较
成功的服务
HBase
实例：HBase在Streamy.com
的使用
Praxis
版本
HDFS
用户界面
度量
模式的设计
计数器
批量加载
第14章 ZooKeeper
安装和运行ZooKeeper
示例
ZooKeeper中的组成员关系
创建组
加入组
列出组成员
删除组
ZooKeeper服务
数据模型
操作
实现
一致性
会话
状态
使用ZooKeeper来构建应用
配置服务
可复原的ZooKeeper应用
锁服务
更多分布式数据结构和协议
生产环境中的ZooKeeper
可恢复性和性能
配置
第15章开源工具Sqoop
获取Sqoop
一个导入的例子
生成代码
其他序列化系统
深入了解数据库导入
导入控制
导入和一致性
直接模式导入
使用导入的数据
导入的数据与Hive
导入大对象
执行导出
深入了解导出
导出与事务
导出和SequenceFile
第16章实例分析
Hadoop 在Last.fm的应用
Last.fm：社会音乐史上的革命
Hadoop在Last.fm中的应用
用Hadoop产生图表
Track Statistics程序
总结
Hadoop和Hive在Facebook中的应用
概要介绍
Hadoop在Facebook的使用
假想的使用情况
Hive
存在的问题与未来工作计划
Nutch 搜索引擎
背景介绍
数据结构
Nutch系统利用Hadoop进行
数据处理的精选实例
总结
Rackspace的日志处理
简史
选择Hadoop
收集和存储
日志的MapReduce模型
关于Cascading
字段、元组和管道
操作
Tap类、Scheme对象和
Flow对象
Cascading实战
灵活性
Hadoop和Cascading在
ShareThis的应用
总结
Apache Hadoop的TB字节
数量级排序
使用Pig和Wukong来探索10亿
数量级边的网络图
测量社区
每个人都在和我说话：
Twitter回复关系图
度(degree)
对称链接
社区提取
附录A 安装Apache Hadoop
附录B Cloudera’s Distribution
for Hadoop
附录C 准备NCDC天气数据
索引

书名：Hadoop权威指南（第2版）

作者：Tom White 著

译者：周敏奇, 王晓玲, 金澈清, 钱卫宁译

国内出版社：清华大学出版社

出版时间：2011年06月

书号：978-7-302-25758-5

原版书书名：Hadoop: The Definitive Guide, Second Edition

原版书出版商：O'Reilly Media

Tom White

自从 2007 年 2 月以来,Tom White 一直担任 Apache Hadoop 项目负责人。他是 Apache 软件基金会的成员之一。他就职于 Cloudera,该公司提供 Hadoop 产品、服务、支持和培训服务。在此之前,Tom 是一名独立的 Hadoop 顾问,曾帮助很多公司搭建、使用和扩展 Hadoop 应用。他曾为 O’Reilly.com,Java.net 和 IBM 的 developerWorks 写过大量文章,并定期在行业大会上发表 Hadoop 主题演讲。Tom 拥有英国剑桥大学数学学士学位和利兹大学科学哲学硕士学位。现在,他和他的家人居住在旧金山。

查看Tom White更多信息

《Hadoop 权威指南》封面上的动物是一头非洲象。非洲象属中的大象是地球上最大的陆地动物(比其表兄弟亚洲象稍大),可以通过耳朵来辨认它们,它们耳朵的形状与亚洲大陆的形状相似。雄性大象肩高 12 英尺,体重 12 000 磅,但最重的能到 15 000 磅,而雌性大象身高 10 英尺,体重 8 000-11 000 磅。甚至小象也非常大,刚出生时体重就接近 200 磅,身高 3 英尺左右。

非洲象生活在撒哈拉以南的非洲地区。陆地上大部分大象生活在稀树的草原地区和干燥的林地。在某些地区,大象生活在沙漠地带;而在其他地区,可以在山区看到大象。

这一物种在它们生活的森林和稀树草原生态系统中扮演着非常重要的角色。许多植物都依靠通过大象的消化道之后才能够萌芽,据估计,非洲西部近三分之一的树种均依赖于大象的这种方式进行繁殖。大象食用大量的草本植物会影响植被的结构和灌木丛火灾的模式。例如,自然条件下,大象食用大量草本植物形成雨林中的空隙,让阳光投射进去,进而导致大量植物物种的生长。由于大象对许多动植物都有影响,因而称它们为基础物种,因为它们对其赖以生存的生态系统的长期存在至关重要。

封面图片来自于 Dover Pictorial Archive。

购买选项

定价：89.00元

书号：978-7-302-25758-5

出版社：清华大学出版社

联系出版社邮购