构建数据和机器学习平台
构建数据和机器学习平台
Marco Tranquillin, Valliappa Lakshmanan, Firat Tekiner
杜春晓 译
出版时间:2025年06月
页数:350
“本书很好地介绍了设计和构建跟机构战略方向对齐的现代化云数据和机器学习平台所用概念、模式和组件。我真希望自己几年前就曾读过它。”
——Robert Sahlin
Mathem公司数据平台负责人
所有云架构师都要掌握数据平台的构建方法,只有这样,企业才能快速和高效地利用数据驱动决策,并交付企业范围的智能。这本指南介绍如何利用亚马逊AWS、微软Azure、谷歌GCP平台和Snowflake、Databricks等多云工具来设计、构建和打造现代化的云原生数据和机器学习平台。
三位作者利用真实企业架构,介绍了云环境从数据摄取到激活的整个数据生命周期。阅读本书,你将学到如何转换、加固和改造数据仓库和数据湖等熟悉的解决方案,使其走向现代化。你将能利用最新的AI/ML模式,获取准确和更快的洞察力,继而赢得竞争优势。
你将学到如何:
● 设计现代化和安全的云原生或混合式数据分析和机器学习平台。
● 整合数据到妥善治理、可扩展和有弹性的数据平台,以数据加速创新。
● 实现企业数据访问的民主化,治理业务团队抽取洞察力的方式,并构建AI/ML能力。
● 赋予业务团队用流处理流水线实时决策的能力。
● 构建MLOps平台,采用预测分析和规范性分析方法。
  1. 前言
  2. 第1章 数据平台现代化概览
  3. 1.1 数据生命周期
  4. 1.1.1 智慧之旅
  5. 1.1.2 水管类比
  6. 1.1.3 采集
  7. 1.1.4 存储
  8. 1.1.5 处理和转换
  9. 1.1.6 分析和可视化
  10. 1.1.7 激活
  11. 1.2 传统方法的局限性
  12. 1.2.1 反模式:用ETL打破数据孤岛
  13. 1.2.2 反模式:集中控制
  14. 1.2.3 反模式:数据集市和Hadoop
  15. 1.3 创建统一的分析平台
  16. 1.3.1 从内部平台改为云平台
  17. 1.3.2 数据集市和数据湖的缺点
  18. 1.3.3 融合数据仓库和数据湖
  19. 1.4 混合云
  20. 1.4.1 混合的必要性
  21. 1.4.2 混合云的挑战
  22. 1.4.3 混合方案为什么可行
  23. 1.4.4 边缘计算
  24. 1.5 采用AI
  25. 1.5.1 机器学习
  26. 1.5.2 采用机器学习
  27. 1.6 AI为什么要上云
  28. 1.6.1 云基础设施
  29. 1.6.2 普及机器学习
  30. 1.6.3 实时
  31. 1.6.4 MLOps
  32. 1.7 核心原则
  33. 1.8 小结
  34. 第2章 数据创新战略步骤
  35. 2.1 步骤1:战略规划
  36. 2.1.1 战略目标
  37. 2.1.2 识别干系人
  38. 2.1.3 变更管理
  39. 2.2 步骤2:采用云方法,降低总拥有成本
  40. 2.2.1 为什么云的成本更低
  41. 2.2.2 上云能省多少钱
  42. 2.2.3 上云时机
  43. 2.3 步骤3:打破孤岛
  44. 2.3.1 统一数据访问
  45. 2.3.2 选择存储
  46. 2.3.3 构建语义层
  47. 2.4 步骤4:在上下文更快决策
  48. 2.4.1 从批处理到流处理
  49. 2.4.2 上下文信息
  50. 2.4.3 成本管理
  51. 2.5 步骤5:用AI方案包跨越式发展
  52. 2.5.1 预测分析
  53. 2.5.2 理解和生成非结构化数据
  54. 2.5.3 个性化
  55. 2.5.4 解决方案包
  56. 2.6 步骤6:运营由AI驱动的工作流
  57. 2.6.1 找到自动决策和AI辅助的最佳平衡点
  58. 2.6.2 营造数据文化
  59. 2.6.3 充实数据科学团队
  60. 2.7 步骤7:将数据作为产品来管理
  61. 2.7.1 将产品管理原则应用于数据
  62. 2.7.2 理解并维护企业的数据流地图
  63. 2.7.3 识别关键指标
  64. 2.7.4 共识标准、承诺的路线图和愿景性待办事项
  65. 2.7.5 为现有客户构建产品
  66. 2.7.6 管理变更,勇于担责
  67. 2.7.7 客户访谈,发现数据需求
  68. 2.7.8 充分利用白板和原型
  69. 2.7.9 只构建立即就能投入使用的产品
  70. 2.7.10 标准化常用实体和KPI
  71. 2.7.11 数据平台提供自助服务
  72. 2.8 小结
  73. 第3章 为数据团队而设计
  74. 3.1 数据处理机构分类
  75. 3.2 数据分析驱动型机构
  76. 3.2.1 愿景
  77. 3.2.2 角色
  78. 3.2.3 技术框架
  79. 3.3 数据工程驱动型机构
  80. 3.3.1 愿景
  81. 3.3.2 角色
  82. 3.3.3 技术框架
  83. 3.4 数据科学驱动型机构
  84. 3.4.1 愿景
  85. 3.4.2 角色
  86. 3.4.3 技术框架
  87. 3.5 小结
  88. 第4章 迁移框架
  89. 4.1 数据工作流现代化
  90. 4.1.1 全局观
  91. 4.1.2 工作流现代化
  92. 4.1.3 工作流自身的改造
  93. 4.2 四步走迁移框架
  94. 4.2.1 准备和发现
  95. 4.2.2 评估和规划
  96. 4.2.3 执行
  97. 4.2.4 优化
  98. 4.3 评估迁移方案的总成本
  99. 4.3.1 审计现有基础设施
  100. 4.3.2 索取信息、建议和报价
  101. 4.3.3 概念验证和最小可行产品
  102. 4.4 建立安全和数据治理机制
  103. 4.4.1 框架
  104. 4.4.2 成果
  105. 4.4.3 数据生命周期的治理工作
  106. 4.5 架构、流水线和数据迁移
  107. 4.5.1 架构迁移
  108. 4.5.2 流水线迁移
  109. 4.5.3 数据迁移
  110. 4.5.4 迁移阶段
  111. 4.6 小结
  112. 第5章 构建数据湖
  113. 5.1 数据湖和云完美结合
  114. 5.1.1 数据湖本地部署的难点
  115. 5.1.2 云数据湖的优点
  116. 5.2 设计和实现
  117. 5.2.1 批处理和流处理
  118. 5.2.2 数据目录
  119. 5.2.3 Hadoop生态
  120. 5.2.4 云数据湖参考架构
  121. 5.3 集成数据湖:真正的超级力量
  122. 5.3.1 用API扩展数据湖
  123. 5.3.2 数据湖演化:Apache Iceberg、Apache Hudi和 Delta Lake
  124. 5.3.3 用笔记本作交互分析
  125. 5.4 数据处理和报表民主化
  126. 5.4.1 建立对数据的信任
  127. 5.4.2 数据摄取仍是IT部门的工作
  128. 5.5 数据湖机器学习
  129. 5.5.1 用原始数据训练
  130. 5.5.2 数据湖中作预测
  131. 5.6 小结
  132. 第6章 用企业数据仓库创新
  133. 6.1 现代化数据平台
  134. 6.1.1 机构目标
  135. 6.1.2 技术难点
  136. 6.1.3 技术趋势和工具
  137. 6.2 中心辐射架构
  138. 6.2.1 数据摄取
  139. 6.2.2 商业智能
  140. 6.2.3 转换
  141. 6.2.4 机构结构
  142. 6.3 数据仓库赋能数据科学家
  143. 6.3.1 查询接口
  144. 6.3.2 Storage API
  145. 6.3.3 不移动数据的机器学习
  146. 6.4 小结
  147. 第7章 湖仓一体融合架构
  148. 7.1 需要唯一架构
  149. 7.1.1 用户角色
  150. 7.1.2 反模式:各系统分离
  151. 7.1.3 反模式:数据重复
  152. 7.2 融合架构
  153. 7.2.1 两种形式
  154. 7.2.2 云存储上的湖仓一体
  155. 7.2.3 SQL优先湖仓一体
  156. 7.2.4 融合的好处
  157. 7.3 小结
  158. 第8章 流式架构
  159. 8.1 流处理的价值
  160. 8.1.1 行业应用场景
  161. 8.1.2 流处理应用场景
  162. 8.2 流式摄取
  163. 8.2.1 流式ETL
  164. 8.2.2 流式ELT
  165. 8.2.3 流式插入
  166. 8.2.4 边缘设备(IoT)流处理
  167. 8.2.5 流数据存储
  168. 8.3 实时看板
  169. 8.3.1 实时查询
  170. 8.3.2 物化视图
  171. 8.4 流式分析
  172. 8.4.1 时间序列分析
  173. 8.4.2 点击流分析
  174. 8.4.3 异常检测
  175. 8.4.4 弹性流处理
  176. 8.5 机器学习实现持续智能
  177. 8.5.1 用流数据训练模型
  178. 8.5.2 流式机器学习推断
  179. 8.5.3 自动操作
  180. 8.6 小结
  181. 第9章 利用混合和边缘架构扩展数据平台
  182. 9.1 为什么采用多云
  183. 9.1.1 单云更简洁、成本效益更高
  184. 9.1.2 多云不可避免
  185. 9.1.3 多云可以成为一种策略
  186. 9.2 多云架构模式
  187. 9.2.1 统一管理
  188. 9.2.2 一次编写,到处运行
  189. 9.2.3 从本地平台突击上云
  190. 9.2.4 从本地传递上云
  191. 9.2.5 流式数据集成
  192. 9.3 采用多云策略
  193. 9.3.1 框架
  194. 9.3.2 时间尺度
  195. 9.3.3 定义多云策略的目标架构
  196. 9.4 为什么采用边缘计算
  197. 9.4.1 带宽、时延和不稳定连接
  198. 9.4.2 应用场景
  199. 9.4.3 边缘计算的优势
  200. 9.4.4 挑战
  201. 9.5 边缘计算架构模式
  202. 9.5.1 智能设备
  203. 9.5.2 智能网关
  204. 9.5.3 机器学习激活
  205. 9.6 采用边缘计算
  206. 9.6.1 初始背景
  207. 9.6.2 项目
  208. 9.6.3 最终成果和下一步计划
  209. 9.7 小结
  210. 第10章 AI应用架构
  211. 10.1 这是AI和机器学习问题吗
  212. 10.1.1 AI的子领域
  213. 10.1.2 生成式AI
  214. 10.1.3 适合用机器学习解决的问题
  215. 10.2 购买、改造或构建
  216. 10.2.1 对数据的考量
  217. 10.2.2 何时购买
  218. 10.2.3 你可以买什么
  219. 10.2.4 如何改造已有模型
  220. 10.3 AI架构
  221. 10.3.1 理解非结构化数据
  222. 10.3.2 生成非结构化数据
  223. 10.3.3 预测结果
  224. 10.3.4 预测数值
  225. 10.3.5 异常检测
  226. 10.3.6 个性化
  227. 10.3.7 自动化
  228. 10.4 负责任的AI
  229. 10.4.1 AI原则
  230. 10.4.2 机器学习的公平性
  231. 10.4.3 可解释性
  232. 10.5 小结
  233. 第11章 构建机器学习平台
  234. 11.1 机器学习活动
  235. 11.2 开发机器学习模型
  236. 11.2.1 标注环境
  237. 11.2.2 开发环境
  238. 11.2.3 用户环境
  239. 11.2.4 准备数据
  240. 11.2.5 训练机器学习模型
  241. 11.3 部署机器学习模型
  242. 11.3.1 端点部署
  243. 11.3.2 评估模型
  244. 11.3.3 混合和多云
  245. 11.3.4 训练—服务偏差
  246. 11.4 自动化
  247. 11.4.1 自动化训练和部署
  248. 11.4.2 用流水线编排
  249. 11.4.3 持续评估和训练
  250. 11.5 选择机器学习框架
  251. 11.5.1 团队技能
  252. 11.5.2 任务考量
  253. 11.5.3 以用户为中心
  254. 11.6 小结
  255. 第12章 数据平台现代化:典型案例
  256. 12.1 新时代新技术
  257. 12.1.1 亟待改革
  258. 12.1.2 不只是技术问题
  259. 12.2 旅程伊始
  260. 12.2.1 当前环境
  261. 12.2.2 目标环境
  262. 12.2.3 概念验证的应用场景
  263. 12.3 云供应商提交的RFP响应文件
  264. 12.3.1 目标环境
  265. 12.3.2 迁移方法
  266. 12.4 RFP评估过程
  267. 12.4.1 概念验证的范围
  268. 12.4.2 执行概念验证
  269. 12.4.3 最终决策
  270. 12.5 结语
  271. 12.6 小结
书名:构建数据和机器学习平台
译者:杜春晓 译
国内出版社:中国电力出版社
出版时间:2025年06月
页数:350
书号:978-7-5198-9956-1
原版书书名:Architecting Data and Machine Learning Platforms
原版书出版商:O'Reilly Media
Marco Tranquillin
 
Marco Tranquillin是资深顾问,帮机构用云计算实现技术转型。
 
 
Valliappa Lakshmanan
 
Valliappa (Lak) Lakshmanan是Google Cloud的数据分析和AI解决方案负责人。他的团队借助BigQuery和Google Cloud上的其他数据分析、机器学习产品,构建软件解决方案来解决业务问题。

Valliappa Lakshmanan是知名高管,与管理层其他同仁和数据科学团队一起用数据和AI创造价值。
 
 
Firat Tekiner
 
Firat Tekiner是创新型产品经理,为全球大型机构开发并交付数据产品和AI系统。
 
 
本书封面上的鸟是栗喉蜂虎(学名:Merops philippinus),为蜂虎科成员,身形纤细,色彩斑斓。
顾名思义,栗喉蜂虎主要以蜜蜂、胡蜂和黄蜂为食。它们喜欢在海边的栖息地上空飞舞,捕食这些蜂类和其他飞虫。像所有近雀形目鸟类一样,它们是陆地鸟类,但通常在沙堤、缓和的山腰挖洞筑巢,而不是在树上。
栗喉蜂虎广泛分布于南亚和东南亚地区,随季节迁徙。由于其分布广且数量稳定,世界自然保护联盟(IUCN)将其列为无危物种。
购买选项
定价:98.00元
书号:978-7-5198-9956-1
出版社:中国电力出版社