《构建可靠的机器学习系统》—

构建可靠的机器学习系统

Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood 著

林然, 王薇, 王祎, 秦正一译

出版时间：2025年04月

“在你将基于机器学习的真实系统投入部署之前，阅读这本书会让你受益匪浅 —— 你可以放心，书中内容源自数十年来之不易的经验总结。”
——Andrew Moore
Google Cloud AI副总裁兼总经理
无论你是小型初创企业的一员，还是跨国公司的一分子，这本实用书籍都将为数据科学家、软件工程师、站点可靠性工程师、产品经理以及企业主指明方向——如何在组织内部可靠、高效且负责地运行和建立机器学习体系。从如何在生产环境中进行模型监测，到如何在产品型组织中管理一支运转良好的模型开发团队，你将深入了解方方面面的内容。
通过将站点可靠性工程（SRE）理念应用于机器学习领域，本书作者、工程领域专业人士Cathy Chen、Kranti Parisa、Niall Richard Murphy、D. Sculley、Todd Underwood，以及特邀客座作者，将向你展示如何运行一个高效且可靠的机器学习系统。无论你是想增加收入、优化决策制定、解决问题，还是理解并影响客户行为，你都将学会如何在着眼大局的同时，执行日常的机器学习任务。
通过学习本书，你将了解：
● 机器学习是什么：它如何运作以及依赖什么。
● 用于理解机器学习 “循环” 如何工作的概念框架。
● 有效的产品化如何使你的机器学习系统易于监控、部署和操作。
● 为什么机器学习系统会使生产故障排查变得更困难，以及如何相应地应对。
● 机器学习团队、产品团队和生产团队如何进行有效沟通。

目录
产品信息
关于作者
封面介绍

序
前言
第1章引言
1.1 机器学习的生命周期
1.1.1 数据收集与分析
1.1.2 机器学习训练管道
1.1.3 构建与验证应用程序
1.1.4 质量和性能评估
1.1.5 定义与度量服务等级目标
1.1.6 发布
1.1.7 监控和反馈循环
1.2 循环中的教训
第2章数据管理原则
2.1 数据即责任
2.2 机器学习管道的数据敏感性
2.3 数据的阶段
2.3.1 创建
2.3.2 提取
2.3.3 处理
2.3.4 存储
2.3.5 管理
2.3.6 分析与可视化
2.4 数据可靠性
2.4.1 持久性
2.4.2 一致性
2.4.3 版本控制
2.4.4 性能
2.4.5 可用性
2.5 数据完整性
2.5.1 安全性
2.5.2 隐私
2.5.3 政策与合规
2.6 总结
第3章模型的基本介绍
3.1 什么是模型
3.2 基本的模型创建工作流
3.3 模型架构、模型定义与训练过的模型
3.4 漏洞在哪里
3.4.1 训练数据
3.4.2 标签
3.4.3 训练方法
3.5 基础设施及管道
3.5.1 平台
3.5.2 特征生成
3.5.3 升级和修复
3.6 对任何模型提出的一系列实用问题
3.7 一个机器学习系统示例
3.7.1 纱线产品点击预测模型
3.7.2 特征
3.7.3 特征标签
3.7.4 模型更新
3.7.5 模型服务
3.7.6 常见故障
3.8 总结
第4章特征与训练数据
4.1 特征
4.1.1 特征选择和工程
4.1.2 特征的生命周期
4.1.3 特征系统
4.2 标签
4.3 人工生成的标签
4.3.1 标注劳动力
4.3.2 衡量人工标注质量
4.3.3 标注平台
4.3.4 主动学习和AI辅助标注
4.3.5 文档和标注员培训
4.4 元数据
4.4.1 元数据系统概述
4.4.2 数据集元数据
4.4.3 特征元数据
4.4.4 标签元数据
4.4.5 管道元数据
4.5 数据隐私和公平性
4.5.1 隐私
4.5.2 公平性
4.6 总结
第5章评估模型的有效性和质量
5.1 评估模型的有效性
5.2 评估模型质量
5.2.1 离线评估
5.2.2 评估分布
5.2.3 一些有用的指标
5.3 实施验证和评估
5.4 总结
第6章机器学习系统中的公平性、隐私和道德
6.1 公平性
6.1.1 公平性的定义
6.1.2 达到公平
6.1.3 公平是一个过程而不是终点
6.1.4 简短的法律说明
6.2 隐私
6.2.1 保护隐私的方法
6.2.2 简短的法律说明
6.3 负责任的AI
6.3.1 模型解释
6.3.2 有效性
6.3.3 社会和文化适当性
6.4 机器学习管道中负责任的AI
6.4.1 用例头脑风暴
6.4.2 数据收集和清洗
6.4.3 模型创建和训练
6.4.4 模型验证和质量评估
6.4.5 模型部署
6.4.6 市场产品
6.5 总结
第7章训练系统
7.1 需求
7.2 基本训练系统的实施
7.2.1 特征
7.2.2 特征存储
7.2.3 模型管理系统
7.2.4 编排
7.2.5 质量评估
7.2.6 监控
7.3 一般可靠性原则
7.3.1 大多数失败不会是机器学习失败
7.3.2 模型将被重新训练
7.3.3 模型将同时有多个版本
7.3.4 好的模型会变坏
7.3.5 数据将不可用
7.3.6 模型应该是可改进的
7.3.7 特征会添加和更改
7.3.8 模型可能训练得过快
7.3.9 资源利用很重要
7.3.10 利用率!=效率
7.3.11 中断包括恢复时间
7.4 常见的训练可靠性问题
7.4.1 数据敏感性
7.4.2 YarnIt的数据问题示例
7.4.3 可重现性
7.4.4 YarnIt的可重现性问题示例
7.4.5 计算资源量
7.4.6 YarnIt的资源量问题示例
7.5 结构可靠性
7.5.1 组织挑战
7.5.2 道德和公平性考虑
7.6 总结
第8章服务
8.1 模型服务的关键问题
8.1.1 我们模型的负载是什么
8.1.2 我们模型的预测延迟需求是多少
8.1.3 模型在哪里运行
8.1.4 我们的模型需要怎样的硬件
8.1.5 服务模型要如何存储、加载、版本控制和更新
8.1.6 用于服务的特征管道是什么样子的
8.2 模型服务架构
8.2.1 离线服务（批量推理）
8.2.2 在线服务（在线推理）
8.2.3 模型即服务
8.2.4 边缘服务
8.2.5 选择架构
8.3 模型API设计
8.4 服务于准确性还是弹性
8.5 扩展
8.5.1 弹性伸缩
8.5.2 缓存
8.6 灾难恢复
8.7 道德和公平性考虑
8.8 总结
第9章模型的监控和可观测性
9.1 什么是生产环境监控以及为什么要这么做
9.1.1 它是什么样的
9.1.2 机器学习为监控带来的问题
9.1.3 为何在生产中需要持续的机器学习可观测性
9.2 机器学习生产监控中的问题
9.2.1 开发的难点与服务的难点
9.2.2 需要在观念上有所转变
9.3 机器学习模型监控的最佳实践
9.3.1 通用的预服务模型建议
9.3.2 训练与重新训练
9.3.3 模型验证（试运行前）
9.3.4 服务
9.3.5 其他需要考虑的事情
9.3.6 监控策略的高层级建议
9.4 总结
第10章持续机器学习
10.1 剖析持续机器学习系统
10.1.1 训练样本
10.1.2 训练标签
10.1.3 过滤掉坏数据
10.1.4 特征存储和数据管理
10.1.5模型更新
10.1.6将更新后的模型推送到服务中
10.2 对持续机器学习系统的观察
10.2.1 外部世界的事件可能影响我们的系统
10.2.2 模型可以影响其自身的训练数据
10.2.3时间效应会出现在多种时间维度上
10.2.4 应急响应必须实时进行
10.2.5 新发布需要分阶段的提升和稳定的基线
10.2.6 模型必须被管理，而不是交付即完成
10.3 持续性组织
10.4 重新思考非持续机器学习系统
10.5总结
第11章事故响应
11.1 事故管理基础
11.1.1 事故的生命周期
11.1.2 事故响应角色
11.2 剖析以机器学习为中心的故障
11.3术语提醒：模型
11.4 故事时间
11.4.1 故事1：搜索但没有找到
11.4.2 故事2：突然间无用的伙伴
11.4.3 故事3：推荐你寻找新的供应商
11.5 机器学习事故管理原则
11.5.1 指导原则
11.5.2模型开发人员或数据科学家
11.5.3 软件工程师
11.5.4 机器学习站点可靠性工程师或机器学习生产工程师
11.5.5 产品经理或业务负责人
11.6 特殊话题
11.6.1 生产工程师以及机器学习工程与建模
11.6.2 符合道德的待命工程师宣言
11.7 总结
第12章产品和机器学习如何交互
12.1 不同类型的产品
12.2 敏捷机器学习
12.3 机器学习产品开发阶段
12.3.1 发现和定义
12.3.2 业务目标设定
12.3.3 MVP构建和验证
12.3.4 模型和产品开发
12.3.5 部署
12.3.6 支持和维护
12.4 构建还是购买
12.4.1 模型
12.4.2 数据处理基础设施
12.4.3 端到端平台
12.4.4 用以做出决策的评分方法
12.4.5 做出决策
12.5 由机器学习提供支持的样例YarnIt商店功能
12.5.1 按总销售额展示受欢迎的纱线
12.5.2 基于浏览历史的推荐
12.5.3 交叉销售和向上销售
12.5.4 基于内容的过滤
12.5.5 协同过滤
12.6 总结
第13章将机器学习集成到你的组织中
13.1 本章假设
13.1.1 基于领导者的视角
13.1.2 细节很重要
13.1.3 机器学习需要了解业务
13.1.4 你做出的最重要的假设
13.1.5 机器学习的价值
13.2 重大组织风险
13.2.1 机器学习不是魔法
13.2.2 思维模型惯性
13.2.3 在不同文化中正确表述风险
13.2.4 孤立的团队并不能解决所有问题
13.3 实施模型
13.3.1 记住目标
13.3.2 绿地还是棕地
13.3.3 机器学习的角色和职责
13.3.4 如何雇用机器学习人员
13.4 组织设计和激励
13.4.1 战略
13.4.2 结构
13.4.3 流程
13.4.4 奖励
13.4.5 人员
13.4.6 关于排序的说明
13.5 总结
第14章实用的机器学习组织实施示例
14.1 场景1：一个新的集中式机器学习团队
14.1.1 背景和组织描述
14.1.2 流程
14.1.3 奖励
14.1.4 人员
14.1.5 默认实施
14.2 场景2：分散式机器学习基础设施和专业知识
14.2.1 背景和组织描述
14.2.2 流程
14.2.3 奖励
14.2.4 人员
14.2.5 默认实施
14.3 场景3：混合使用集中式基础设施/分散式建模
14.3.1 背景和组织描述
14.3.2 流程
14.3.3 奖励
14.3.4 人员
14.3.5 默认实施
14.4 总结
第15章案例研究：实践中的MLOps
15.1 在机器学习管道中适应隐私和数据保留政策
15.1.1 背景
15.1.2问题和解决方案
15.1.3 要点
15.2 影响流量的持续机器学习模型
15.2.1 背景
15.2.2 问题和解决方案
15.2.3 要点
15.3 钢材检测
15.3.1 背景
15.3.2 问题和解决方案
15.3.3 要点
15.4 NLP MLOps：性能分析和分阶段负载测试
15.4.1 背景
15.4.2 问题和解决方案
15.4.3 要点
15.5 广告点击预测：数据库与现实
15.5.1 背景
15.5.2 问题和解决方案
15.5.3 要点
15.6 在机器学习工作流中测试和测量依赖关系
15.6.1 背景
15.6.2 问题和解决方案
15.6.3 要点

书名：构建可靠的机器学习系统

作者：Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood 著

译者：林然, 王薇, 王祎, 秦正一译

国内出版社：机械工业出版社

出版时间：2025年04月

书号：978-7-111-77218-7

原版书书名：Reliable Machine Learning

原版书出版商：O'Reilly Media

Cathy Chen

Cathy Chen曾在Google担任技术项目经理、产品经理和工程经理。

查看Cathy Chen更多信息

Niall Richard Murphy

Niall Richard Murphy是Google网站可靠性工程组织里曾经和现任的成员，他们的职责是关注和维护Google的生产系统。

查看Niall Richard Murphy更多信息

Kranti Parisa

Kranti Parisa是Dialpad的副总裁兼产品工程主管。

查看Kranti Parisa更多信息

D. Sculley

D. Sculley是Kaggle的首席执行官和Google第三方机器学习生态系统的总经理。

查看D. Sculley更多信息

Todd Underwood

Todd Underwood是Google的高级主管以及机器学习SRE的创始人。

查看Todd Underwood更多信息

本书封面上的昆虫是蜜罐蚁（Myrmecocystus mimicus），分布于北美西南部和墨西哥部分地区。
与其他蚂蚁类似，蜜罐蚁的蚁群由各种工蚁组成，它们从花朵、水果和其他昆虫中觅食。蜜罐蚁最引入注目的是它们储存食物的方式。蚁群中的一种工蚁长着巨大的腹部，用来储存它们所获取的液体。在食物供应不足的时候，它们会反刍出液体供其他蚁群食用。由于腹部很大，它们移动起来很困难，所以经常被发现挂在巢顶。

购买选项

定价：139.00元

书号：978-7-111-77218-7

出版社：机械工业出版社

联系出版社邮购