数据科学难点解惑
数据科学难点解惑
Daniel Vaughan
王薇 译
出版时间:2025年08月
页数:260
“Daniel又写了一部杰作,作为数据科学家与商业高管之间价值创造的连接纽带。这本书是实现数据科学商业成功所缺失的手册。”
——Adri Purkayastha
Global Head of AI Technology Risk, BNP Paribas
“涵盖了从经济学到广告,再到流行病学的所有内容,以及如何在实践中应用数据科学技术。它从大多数书籍结束的地方开始,即基于数据洞察的实际决策过程。这是任何数据科学家书架上早该添加的作品。”
——Brett Holleman
Freelance data scientist
本书提供了一系列在传统数据工程和数据科学教育中被忽视的技术和最佳实践。一个普遍的误解是,优秀的数据科学家是该领域“重大主题”的专家,即机器学习和编程。然而,大多数情况下,这些工具只能帮助我们到达某个程度。实际上,真正区分顶级数据科学家与普通数据科学家的是这些重大主题中的细微差别,以及对业务产生影响的能力。
总体而言,本书使一名普通数据科学家候选人与在行业中表现卓越的数据科学家之间产生了差异。本书作者将这些技能汇集、扩展并应用于为来自不同公司和行业的数据科学家创造价值和培训。
通过本书,你将能够:
● 确保数据科学工作流程创造价值。
● 设计可操作的、及时的和相关的指标。
● 提供引人瞩目的叙述以获得利益相关者的支持。
● 使用模拟确保你的机器学习算法是解决该问题的正确工具。
● 识别、纠正和预防数据泄露。
● 通过估计因果效应理解增量性。
  1. 前言
  2. 第一部分 数据分析技术
  3. 第1章 那又怎样?利用数据科学创造价值
  4. 1.1 价值是什么
  5. 1.2 是什么:了解业务
  6. 1.3 所以呢:在DS中创造价值的要点
  7. 1.4 现在怎么办:成为一个积极进取的人
  8. 1.5 衡量价值
  9. 1.6 关键要点
  10. 1.7 扩展阅读
  11. 第2章 指标设计
  12. 2.1 指标应具备的理想属性
  13. 2.1.1 可衡量
  14. 2.1.2 可操作性
  15. 2.1.3 相关性
  16. 2.1.4 及时性
  17. 2.2 指标分解
  18. 2.2.1 漏斗分析
  19. 2.2.2 存量流量分解
  20. 2.2.3 P×Q型分解
  21. 2.3 例子:另一种收入分解
  22. 2.4 例子:市场
  23. 2.5 关键要点
  24. 2.6 扩展阅读
  25. 第3章 增长分解:理解顺境与逆境
  26. 3.1 为什么要进行增长分解
  27. 3.2 加法分解
  28. 3.2.1 例子
  29. 3.2.2 解释和用例
  30. 3.3 乘法分解
  31. 3.3.1 例子
  32. 3.3.2 解释
  33. 3.4 混合比率分解
  34. 3.4.1 例子
  35. 3.4.2 解释
  36. 3.5 数学推导
  37. 3.5.1 加法分解
  38. 3.5.2 乘法分解
  39. 3.5.3 混合比率分解
  40. 3.6 关键要点
  41. 3.7 扩展阅读
  42. 第4章 2×2设计
  43. 4.1 简化的案例
  44. 4.2 什么是2×2设计
  45. 4.3 示例:测试模型和新功能
  46. 4.4 示例:了解用户行为
  47. 4.5 例子:信贷发放和接收
  48. 4.6 示例:确定工作流程的优先级
  49. 4.7 关键要点
  50. 4.8 扩展阅读
  51. 第5章 构建商业案例
  52. 5.1 构建商业案例的一些原则
  53. 5.2 示例:主动留存策略
  54. 5.3 欺诈罪预防
  55. 5.4 购买外部数据集
  56. 5.5 从事一个数据科学项目
  57. 5.6 关键要点
  58. 5.7 扩展阅读
  59. 第6章 提升度是什么
  60. 6.1 定义提升度
  61. 6.2 示例:分类器模型
  62. 6.3 自选择偏差和幸存者偏差
  63. 6.4 提升度的其他用途
  64. 6.5 关键要点
  65. 6.6 扩展阅读
  66. 第7章 叙述
  67. 7.1 什么是叙述:用你的数据来讲故事
  68. 7.1.1 清晰明了的
  69. 7.1.2 可信的
  70. 7.1.3 难忘的
  71. 7.1.4 可操作的
  72. 7.2 构建一个故事
  73. 7.2.1 科学讲述
  74. 7.2.2 什么,那又怎样,现在怎么办
  75. 7.3 最后的阶段
  76. 7.3.1 写TL;DR
  77. 7.3.2 如何撰写令人难忘的TL;DR
  78. 7.3.3 示例:为本章节写TL;DR
  79. 7.3.4 进行有力的电梯演讲
  80. 7.3.5 展现你的叙述
  81. 7.4 关键要点
  82. 7.5 扩展阅读
  83. 第8章 数据可视化:选择正确的图表来传递信息
  84. 8.1 一些有用的和不太常用的数据可视化
  85. 8.1.1 条形图和折线图
  86. 8.1.2 斜线图
  87. 8.1.3 瀑布图
  88. 8.1.4 平滑散点图
  89. 8.1.5 绘制分布
  90. 8.2 一般建议
  91. 8.2.1 为你想传达的信息找到正确的图表
  92. 8.2.2 明智的选择颜色
  93. 8.2.3 图表中的不同维度
  94. 8.2.4 争取足够大的数据墨水比率
  95. 8.2.5 定制与半自动化相比
  96. 8.2.6 从一开始就确定正确的字体大小
  97. 8.2.7 交互的或者静态的
  98. 8.2.8 保持简单
  99. 8.2.9 从解释图表开始
  100. 8.3 关键要点
  101. 8.4 扩展阅读
  102. 第二部分 机器学习
  103. 第9章 模拟法和自助法
  104. 9.1 基本的模拟
  105. 9.2 模拟线性模型和线性回归
  106. 9.3 什么是部分依赖图
  107. 9.4 遗漏变量偏差
  108. 9.5 模拟分类问题
  109. 9.5.1 潜在变量模型
  110. 9.5.2 比较不同算法
  111. 9.6 自助法
  112. 9.7 关键要点
  113. 9.8 扩展阅读
  114. 第10章 线性回归:回到基础
  115. 10.1 什么是系数
  116. 10.2 Frisch-Waugh-Lovell定理
  117. 10.3 为什么你应该关心FWL
  118. 10.4 干扰因子
  119. 10.5 额外变量
  120. 10.6 在机器学习中变化是中心角色
  121. 10.7 关键要点
  122. 10.8 扩展阅读
  123. 第11章 数据泄露
  124. 11.1 什么是数据泄露
  125. 11.1.1 结果也是一个特征
  126. 11.1.2 特征是结果的函数
  127. 11.1.3 不良控制变量
  128. 11.1.4 时间戳标记错误
  129. 11.1.5 具有不规则时间聚合的多个数据集
  130. 11.1.6 其他信息的泄露
  131. 11.2 检测数据泄露
  132. 11.3 完全分离
  133. 11.4 窗口方法
  134. 11.4.1 选择窗户的长度
  135. 11.4.2 训练阶段与评分阶段相对应
  136. 11.4.3 实现窗口方法
  137. 11.5 有数据泄露了:现在怎么办
  138. 11.6 关键要点
  139. 11.7 扩展阅读
  140. 第12章 生产化模型
  141. 12.1 “生产就绪”是什么意思
  142. 12.1.1 批量评分(离线)
  143. 12.1.2 实时模型对象
  144. 12.2 数据和模型漂移
  145. 12.3 任何生产流程中的基本步骤
  146. 12.3.1 获取和转换数据
  147. 12.3.2 验证数据
  148. 12.3.3 训练和评分阶段
  149. 12.3.4 验证模型和评分
  150. 12.3.5 部署模型和评分
  151. 12.4 关键要点
  152. 12.5 扩展阅读
  153. 第13章 机器学习中的故事讲述
  154. 13.1 机器学习故事讲述的全过程
  155. 13.2 事前和期间讲故事
  156. 13.2.1 提出假设
  157. 13.2.2 特征工程
  158. 13.3 事后讲故事:打开黑盒子
  159. 13.3.1 可解释性和性能的权衡
  160. 13.3.2 线性回归:设置一个基准
  161. 13.3.3 特征重要性
  162. 13.3.4 热图
  163. 13.3.5 部分依赖图
  164. 13.3.6 累积局部效应
  165. 13.4 关键要点
  166. 13.5 扩展阅读
  167. 第14章 从预测到决策
  168. 14.1 剖析决策制定
  169. 14.2 明智的阈值产生简单的决策规则
  170. 14.2.1 精确率和召回率
  171. 14.2.2 例子:潜在客户生成
  172. 14.3 混淆矩阵优化
  173. 14.4 关键要点
  174. 14.5 扩展阅读
  175. 第15章 增量:数据科学的圣杯
  176. 15.1 定义增量
  177. 15.1.1 从因果推理到提升预测
  178. 15.1.2 因果推理作为差异化因素
  179. 15.1.3 提升决策制定
  180. 15.2 干扰因子和对撞因子
  181. 15.3 选择偏差
  182. 15.4 无混淆假设
  183. 15.5 打破选择偏差:随机化
  184. 15.6 匹配
  185. 15.7 机器学习和因果推理
  186. 15.7.1 打开源代码库
  187. 15.7.2 双重机器学习
  188. 15.8 关键要点
  189. 15.9 扩展阅读
  190. 第16章 A/B测试
  191. 16.1 什么是A/B测试
  192. 16.2 决策标准
  193. 16.3 最小可检测效应
  194. 16.3.1 选择统计功效、显著性水平和P值
  195. 16.3.2 估计结果的方差
  196. 16.3.3 模拟
  197. 16.3.4 例子:转换费率
  198. 16.3.5 设置MDE
  199. 16.4 假设列表
  200. 16.4.1 指标
  201. 16.4.2 假设
  202. 16.4.3 排名
  203. 16.5 实验治理
  204. 16.6 关键要点
  205. 16.7 扩展阅读
  206. 第17章 大型语言模型和数据科学实践
  207. 17.1 当前人工智能的状态
  208. 17.2 数据科学家们做什么
  209. 17.3 不断演变的数据科学家职位描述
  210. 17.3.1 案例学习:A/B测试
  211. 17.3.2 案例学习:数据清理
  212. 17.3.3 案例学习:机器学习
  213. 17.4 LLM和本书
  214. 17.5 关键要点
  215. 17.6 扩展阅读
书名:数据科学难点解惑
作者:Daniel Vaughan
译者:王薇 译
国内出版社:中国电力出版社
出版时间:2025年08月
页数:260
书号:978-7-5239-0155-7
原版书书名:Data Science: The Hard Parts
原版书出版商:O'Reilly Media
Daniel Vaughan
 
Daniel Vaughan曾领导不同公司和行业的数据团队,目前正在为几家金融科技公司提供咨询,帮助确保其数据、机器学习和人工智能计划的成功。作为《Analytical Skills for AI and Data Science》(O'Reilly)的作者,他拥有超过15年的机器学习开发经验和超过8年的数据科学团队领导经验。Daniel获得了纽约大学(NYU)经济学的博士学位。
 
 
本书封面的动物是一只斑马鱼(学名:Danio rerio)。斑马鱼是一种淡水鱼,属于小鲤家族,原产于南亚。它们因其侧面有五条水平蓝色条纹而得名,这些条纹延伸到尾鳍末端。雄性在蓝色条纹之间有金色条纹,而雌性则有银色条纹而非金色。野生的斑马鱼通常可长至1.5英寸,寿命为两三年。它们通常生活在浅水区,包括溪流、池塘和稻田。
斑马鱼因其鲜艳的颜色而在水族箱中很受欢迎,同时它们易于照顾和繁殖。它们的卵在两到三天内孵化,并在三到四个月内达到成熟。由于其透明的卵和幼虫便于观察发育,它们在科学研究中也被广泛用作脊椎动物模型生物。
由于在自然栖息地的数量众多,斑马鱼被认为是一种低关注物种。
购买选项
定价:88.00元
书号:978-7-5239-0155-7
出版社:中国电力出版社