数据算法
Mahmoud Parsian
苏金国, 杨健康 译
出版时间:2016年12月
页数:696
《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。
主要内容包括:
· 完成超大量交易的购物篮分析。
· 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。
· 使用超大基因组数据完成DNA和RNA测序。
· 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。
· 推荐算法和成对文档相似性。
· 线性回归、Cox回归和皮尔逊(Pearson)相关分析。
· 等位基因频率和DNA挖掘。
· 社交网络分析(推荐系统、三角形计数和情感分析)。
  1. 前言
  2. 第1章 二次排序:简介
  3. 二次排序问题解决方案
  4. MapReduce/Hadoop的二次排序解决方案
  5. Spark的二次排序解决方案
  6. 第2章 二次排序:详细示例
  7. 二次排序技术
  8. 二次排序的完整示例
  9. 运行示例——老版本Hadoop API
  10. 运行示例——新版本Hadoop API
  11. 第3章 Top 10列表
  12. Top N设计模式的形式化描述
  13. MapReduce/Hadoop实现:唯一键
  14. Spark实现:唯一键
  15. Spark实现:非唯一键
  16. 使用takeOrdered()的Spark Top 10解决方案
  17. MapReduce/Hadoop Top 10解决方案:非唯一键
  18. 第4章 左外连接
  19. 左外连接示例
  20. MapReduce左外连接实现
  21. Spark左外连接实现
  22. 使用leftOuterJoin()的Spark实现
  23. 第5章 反转排序
  24. 反转排序模式示例
  25. 反转排序模式的MapReduce/Hadoop实现
  26. 运行示例
  27. 第6章 移动平均
  28. 示例1:时间序列数据(股票价格)
  29. 示例2:时间序列数据(URL访问数)
  30. 形式定义
  31. POJO移动平均解决方案
  32. MapReduce/Hadoop移动平均解决方案
  33. 第7章 购物篮分析
  34. MBA目标
  35. MBA的应用领域
  36. 使用MapReduce的购物篮分析
  37. Spark解决方案
  38. 运行Spark实现的YARN脚本
  39. 第8章 共同好友
  40. 输入
  41. POJO共同好友解决方案
  42. MapReduce算法
  43. 解决方案1: 使用文本的Hadoop实现
  44. 解决方案2: 使用ArrayListOfLongsWritable的Hadoop实现
  45. Spark解决方案
  46. 第9章 使用MapReduce实现推荐引擎
  47. 购买过该商品的顾客还购买了哪些商品
  48. 经常一起购买的商品
  49. 推荐连接
  50. 第10章 基于内容的电影推荐
  51. 输入
  52. MapReduce阶段1
  53. MapReduce阶段2和阶段3
  54. Spark电影推荐实现
  55. 第11章 使用马尔可夫模型的智能邮件营销
  56. 马尔可夫链基本原理
  57. 使用MapReduce的马尔可夫模型
  58. Spark解决方案
  59. 第12章 K-均值聚类
  60. 什么是K-均值聚类
  61. 聚类的应用领域
  62. K-均值聚类方法非形式化描述:分区方法
  63. K-均值距离函数
  64. K-均值聚类形式化描述
  65. K-均值聚类的MapReduce解决方案
  66. K-均值算法Spark实现
  67. 第13章 k-近邻
  68. kNN分类
  69. 距离函数
  70. kNN示例
  71. kNN算法非形式化描述
  72. kNN算法形式化描述
  73. kNN的类Java非MapReduce解决方案
  74. Spark的kNN算法实现
  75. 第14章 朴素贝叶斯
  76. 训练和学习示例
  77. 条件概率
  78. 深入分析朴素贝叶斯分类器
  79. 朴素贝叶斯分类器:符号数据的MapReduce解决方案
  80. 朴素贝叶斯分类器Spark实现
  81. 使用Spark和Mahout
  82. 第15章 情感分析
  83. 情感示例
  84. 情感分数:正面或负面
  85. 一个简单的MapReduce情感分析示例
  86. 真实世界的情感分析
  87. 第16章 查找、统计和列出大图中的所有三角形
  88. 基本的图概念
  89. 三角形计数的重要性
  90. MapReduce/Hadoop解决方案
  91. Spark解决方案
  92. 第17章 K-mer计数
  93. K-mer计数的输入数据
  94. K-mer计数应用
  95. K-mer计数MapReduce/Hadoop解决方案
  96. K-mer计数Spark解决方案
  97. 第18章 DNA测序
  98. DNA测序的输入数据
  99. 输入数据验证
  100. DNA序列比对
  101. DNA测试的MapReduce算法
  102. 第19章 Cox回归
  103. Cox模型剖析
  104. 使用R的Cox回归
  105. Cox回归应用
  106. Cox回归POJO解决方案
  107. MapReduce输入
  108. 使用MapReduce的Cox回归
  109. 第20章 Cochran-Armitage趋势检验
  110. Cochran-Armitage算法
  111. Cochran-Armitage应用
  112. MapReduce解决方案
  113. 第21章 等位基因频率
  114. 基本定义
  115. 形式化问题描述
  116. 等位基因频率分析的MapReduce解决方案
  117. MapReduce解决方案,阶段1
  118. MapReduce解决方案,阶段2
  119. MapReduce解决方案,阶段3
  120. 染色体X 和Y的特殊处理
  121. 第22章 T检验
  122. 对bioset完成T检验
  123. MapReduce问题描述
  124. 输入
  125. 期望输出
  126. MapReduce解决方案
  127. Spark实现
  128. 第23章 皮尔逊相关系数
  129. 皮尔逊相关系数公式
  130. 皮尔逊相关系数示例
  131. 皮尔逊相关系数数据集
  132. 皮尔逊相关系数POJO解决方案
  133. 皮尔逊相关系数MapReduce解决方案
  134. 皮尔逊相关系数的Spark解决方案
  135. 运行Spark程序的YARN脚本
  136. 使用Spark计算斯皮尔曼相关系数
  137. 第24章 DNA碱基计数
  138. FASTA格式
  139. FASTQ格式
  140. MapReduce解决方案:FASTA格式
  141. 运行示例
  142. MapReduce解决方案: FASTQ格式
  143. Spark 解决方案: FASTA格式
  144. Spark解决方案: FASTQ格式
  145. 第25章 RNA测序
  146. 数据大小和格式
  147. MapReduce工作流
  148. RNA测序分析概述
  149. RNA测序MapReduce算法
  150. 第26章 基因聚合
  151. 输入
  152. 输出
  153. MapReduce解决方案(按单个值过滤和按平均值过滤)
  154. 基因聚合的Spark解决方案
  155. Spark解决方案:按单个值过滤
  156. Spark解决方案:按平均值过滤
  157. 第27章 线性回归
  158. 基本定义
  159. 简单示例
  160. 问题描述
  161. 输入数据
  162. 期望输出
  163. 使用SimpleRegression的MapReduce解决方案
  164. Hadoop实现类
  165. 使用R线性模型的MapReduce解决方案
  166. 第28章 MapReduce和幺半群
  167. 概述
  168. 幺半群的定义
  169. 幺半群和非幺半群示例
  170. MapReduce示例:非幺半群
  171. MapReduce示例:幺半群
  172. 使用幺半群的Spark示例
  173. 使用幺半群的结论
  174. 函子和幺半群
  175. 第29章 小文件问题
  176. 解决方案1:在客户端合并小文件
  177. 解决方案2:用CombineFileInputFormat解决小文件问题
  178. 其他解决方案
  179. 第30章 MapReduce的大容量缓存
  180. 实现方案
  181. 缓存问题形式化描述
  182. 一个精巧、可伸缩的解决方案
  183. 实现LRUMap缓存
  184. 使用LRUMap的MapReduce解决方案
  185. 第31章 Bloom过滤器
  186. Bloom过滤器性质
  187. 一个简单的Bloom过滤器示例
书名:数据算法
作者:Mahmoud Parsian
译者:苏金国, 杨健康 译
国内出版社:中国电力出版社
出版时间:2016年12月
页数:696
书号:978-7-5123-9594-7
原版书书名:Data Algorithms
原版书出版商:O'Reilly Media
Mahmoud Parsian
 
Mahmoud Parsian,计算机科学博士,是一位热衷于实践的软件专家,作为开发人员、设计人员、架构师和作者,他有30多年的软件开发经验。目前领导着Illumina的大数据团队,在过去15年间,他主要从事Java (服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等书(均由Apress出版)。