大数据猩球:海量数据处理实践指南
Philip Kromer, Russell Jurney
唐李洋 译
出版时间:2016年08月
页数:212
从超大规模的事件流中发现模式可能很困难,但是学习如何发现这些模式却不见得很难。这本实战指南告诉我们如何利用Apache Hadoop,使用简单、有趣、精致的工具,解决大规模数据处理中的模式发现以及很多其他问题。通过处理真实数据、解决现实问题,你将对大数据有一个实用的、可操作的认识。本书非常适合Hadoop新手,也很适合那些想要提升技能的有经验的实践家。其中,第一部分解释了Hadoop和MapReduce的工作原理,第二部分讲述了很多数据处理用到的分析模式。通过一些练习,你还将学会如何使用Apache Pig进行数据处理。
● 学习使用Hadoop的必要原理,包括数据和计算在集群中的移动行为
● 深入理解MapReduce机制,用Python创建你的第一个MapReduce作业
● 理解如何以Pig脚本的形式运行MapReduce作业链
● 全书使用真实数据集,即棒球统计数据集
● 提供分析模式的示例,并学习何时何地使用这些分析模式
  1. 前言
  2. 第一部分 入门:理论和工具
  3. 第1章 Hadoop基础
  4. 黑猩猩和大象创业
  5. Map-Only作业:逐个处理记录
  6. Pig Latin Map-Only作业
  7. 创建Docker Hadoop集群
  8. 运行作业
  9. 小结
  10. 第2章 MapReduce
  11. 黑猩猩和大象拯救圣诞节
  12. 玩具岛上的麻烦
  13. 黑猩猩把信件变成带标签的玩具表
  14. 小象将玩具表送到适当的工作台
  15. 示例:驯鹿游戏
  16. UFO数据
  17. 根据报道延迟对UFO目击分组
  18. Mapper
  19. Reducer
  20. 数据可视化
  21. 驯鹿小结
  22. Hadoop与传统数据库
  23. MapReduce俳句
  24. Map阶段简述
  25. Group-Sort阶段简述
  26. Reduce阶段简述
  27. 小结
  28. 第3章 棒球数据集速览
  29. 数据
  30. 缩略词和术语
  31. 规则和目标
  32. 评价指标
  33. 小结
  34. 第4章 Pig入门
  35. Pig帮助Hadoop处理数据表,而不是记录
  36. 维基百科访问数统计
  37. 基本数据操作
  38. 控制操作
  39. 管道操作
  40. 结构化操作
  41. LOAD定位并描述你的数据
  42. 简单类型
  43. 复杂类型1,元组:带类型字段的固长序列
  44. 复杂类型2,袋:元组的无限集合
  45. 定义变换后的记录模式
  46. STORE将数据写入磁盘
  47. 辅助命令
  48. DESCRIBE
  49. DUMP
  50. SAMPLE
  51. ILLUSTRATE
  52. EXPLAIN
  53. Pig函数
  54. Piggybank
  55. Apache DataFu
  56. 小结
  57. 第二部分 战术:分析模式
  58. 第5章 Map-Only操作
  59. 模式用法
  60. 清除数据
  61. 选择满足条件的记录:FILTER等
  62. 选择满足多个条件的记录
  63. 选择或丢弃空值记录
  64. 选择匹配正则表达式的记录(MATCHES)
  65. 根据固定的值列表匹配记录
  66. 按字段名投影字段
  67. 使用FOREACH选择、重命名和重排序字段
  68. 抽取记录的随机样本
  69. 按key抽取一致性样本
  70. 仅加载部分part-Files实现粗略抽样
  71. 使用LIMIT选择固定数量的记录
  72. 其他数据消除模式
  73. 变换记录
  74. 使用FOREACH逐个变换记录
  75. 嵌套FOREACH允许使用中间表达式
  76. 根据模版格式化字符串
  77. 使用复杂类型组装字面值
  78. 操纵字段的类型
  79. 整型、浮点型和取整
  80. 从外部包调用用户自定义函数
  81. 将一个表分裂成多个表的操作
  82. 将数据条件定向到多个数据流 (SPLIT)
  83. 将几个表联合成一个表的操作
  84. 将多个Pig关系表合并成一个表(堆砌行集)
  85. 小结
  86. 第6章 分组操作
  87. 按key将记录分组到袋
  88. 模式用法
  89. 统计key的出现次数
  90. 使用带分隔符的字符串表示值的集合
  91. 使用带分隔符的字符串表示复杂数据结构
  92. 使用JSON编码的字符串表示复杂数据结构
  93. 分组和聚合
  94. 聚合组的统计数据
  95. 完全汇总字段
  96. 汇总整个表的聚合统计值
  97. 汇总字符串字段
  98. 使用直方图计算数值型值的分布情况
  99. 模式用法
  100. 直方图的数据分箱
  101. 确定箱子的大小
  102. 解释直方图和分位数
  103. 将数据分箱到规模呈指数变化的块
  104. 为通用代码段创建Pig宏
  105. 比赛分布情况
  106. 极端情况和干扰因子
  107. 不要相信尾部分布
  108. 计算相对分布直方图
  109. 重新注入全局值
  110. 在组内计算直方图
  111. 导出可读结果
  112. 汇总技巧
  113. 统计组的条件子集——汇总技巧
  114. 同时汇总组的多个子集
  115. 测试组内某个值是否缺失
  116. 小结
  117. 参考文献
  118. 第7章 表连接
  119. 匹配表记录(内连接)
  120. 将一个表的记录与另一个表的记录直接匹配连接(直接内连接)
  121. 连接是怎么工作的
  122. 连接就是COGROUP+FLATTEN
  123. 连接就是在表名上进行二次排序的MapReduce作业
  124. 处理连接和分组中的空值和不匹配
  125. 枚举多对多关系
  126. 连接表和它自己(自连接)
  127. 包含不匹配记录的连接(外连接)
  128. 模式用法
  129. 连接不含外键关系的表
  130. 连接整型表填补列表中的空白
  131. 仅选择与另一个表不匹配的记录(反连接)
  132. 仅选择与另一个表匹配的记录(半连接)
  133. 反连接的另一种方式:使用COGROUP
  134. 小结
  135. 第8章 排序操作
  136. 准备职业生涯时期
  137. 对所有记录进行全排序
  138. 多字段排序
  139. 表达式排序(行不通)
  140. 大小写不敏感的字符串排序
  141. 排序的空值处理
  142. 将值放到排序顺序的顶部或底端
  143. 组内排序
  144. 模式用法
  145. 根据字段值的Top-K选择行
  146. 组内Top-K
  147. 按照排序顺序给记录编号
  148. 找出最大值对应的记录
  149. 对一组记录进行混排
  150. 小结
  151. 第9章 重复记录和唯一记录
  152. 处理重复
  153. 消除表中的重复记录
  154. 消除组内的重复记录
  155. 基于键消除重复
  156. 基于键选择唯一(或重复)记录
  157. 集合操作
  158. 全表上的集合操作
  159. Distinct Union
  160. Distinct Union(其他方法)
  161. Set Intersection
  162. Set Difference
  163. Symmetric Difference:(A-B)+(B-A)
  164. Set Equality
  165. 组内集合操作
  166. 构造一个集合序列
  167. 某个组内的集合操作
  168. 小结
  169. 索引
书名:大数据猩球:海量数据处理实践指南
译者:唐李洋 译
国内出版社:电子工业出版社
出版时间:2016年08月
页数:212
书号:978-7-121-29418-1
原版书书名:Big Data for Chimps
原版书出版商:O'Reilly Media
Philip Kromer
 
Flip is the founder and CTO at Infochimps.com, a big data platform that makes acquiring, storing and analyzing massive data streams transformatively easier. He enjoys Bowling, Scrabble, working on old cars or new wood, and rooting for the Red Sox.
 
 
Russell Jurney
 
Russsel Jurney在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个Web应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在Ning和LinkedIn开始构建可扩展的数据分析应用。