《生成式深度学习（第二版）》—

生成式深度学习（第二版）

马晶慧译

出版时间：2025年09月

页数：454

“本书深入浅出地介绍了生成式建模深度学习工具包。如果你是一位富有创造力的编程爱好者，希望在实际工作中应用深度学习，那么本书是不二之选。”
——David Ha
Stability AI的战略主管
“这本精彩的教程深入探讨了最先进的生成式深度学习技术。带你体验人工智能世界中最令人着迷的一次精彩探索！”
——Francois Chollet
Keras创建者

生成式人工智能是高科技领域最热门的话题之一。机器学习工程师和数据科学家可以通过本书学习如何使用TensorFlow和Keras，从零开始构建强大的生成式深度学习模型，包括变分自编码器（VAE）、生成对抗网络（GAN）、Transformer、标准化流模型、基于能量的模型（EBM）以及去噪扩散模型。
本书从深度学习的基础知识讲起，逐步深入当前最尖端的架构。你可以通过书中的技巧和窍门，学习如何构建能够更有效地学习以及更具创造力的模型。
● 学习如何通过变分自动编码器（VAE）改变图像中人物的面部表情。
● 学习如何训练GAN，根据数据集生成图像。
● 学习如何构建扩散模型，生成全新的花卉品种。
● 学习如何训练自己的生成文本GPT。
● 了解大型语言模型（如ChatGPT）的训练过程。
● 探索最先进的生成式架构，如StyleGAN2和ViT-VQGAN。
● 使用Transformer和MuseGAN创作多声部乐曲。
● 学习生成式世界模型如何解决强化学习任务。
● 深入研究多模态模型，如DALL.E 2、Imagen和Stable Diffusion。
此外，本书还探讨了生成式AI的未来发展，以及个人和企业如何主动利用这项突破性技术来获得竞争优势。

目录
产品信息
关于作者
封面介绍

序
前言
第一部分生成式深度学习简介
第1章生成式建模
1.1 什么是生成式建模
1.1.1 生成式建模与判别式建模
1.1.2 生成式建模的兴起
1.1.3 生成式建模与AI
1.2 我们的第一个生成式建模
1.2.1 Hello World
1.2.2 生成式建模框架
1.2.3 表示学习
1.3 核心概率理论
1.4 生成式模型的分类
1.5 生成式深度学习代码库
1.5.1 克隆代码库
1.5.2 使用Dokcer
1.5.3 运行GPU
1.6 小结
1.7 参考资料
第2章深度学习
2.1 深度学习的数据
2.2 深度神经网络
2.2.1 什么是神经网络
2.2.2 学习高层特征
2.2.3 TensorFlow和Keras
2.3 多层感知器
2.3.1 准备数据
2.3.2 构建模型
2.3.3 编译模型
2.3.4 训练模型
2.3.5 评估模型
2.4 卷积神经网络（CNN）
2.4.1 卷积层
2.4.2 批标准化
2.4.3 Dropout层
2.4.4 构建CNN
2.4.5 训练和评估CNN
2.5 小结
2.6 参考资料
第二部分方法
第3章变分自动编码器
3.1 引言
3.2 自动编码器
3.2.1 Fashion-MNIST数据集
3.2.2 自动编码器的架构
3.2.3 编码器
3.2.4 解码器
3.2.5 连接编码器与解码器
3.2.6 重建图像
3.2.7 可视化隐空间
3.2.8 生成新图像
3.3 变分自动编码器
3.3.1 编码器
3.3.2 损失函数
3.3.3 训练变分自动编码器
3.3.4 分析变分自动编码器
3.4 探索隐空间
3.4.1 CelebA数据集
3.4.2 训练变分自动编码器
3.4.3 分析变分自动编码器
3.4.4 生成新面孔
3.4.5 隐空间的算术运算
3.4.6 面部变形
3.5 小结
3.6 参考资料
第4章生成对抗网络
4.1 引言
4.2 深度卷积GAN（DCGAN）
4.2.1 Bricks数据集
4.2.2 判别器
4.2.3 生成器
4.2.4 训练DCGAN
4.2.5 分析DCGAN
4.2.6 训练GAN的技巧
4.3 WGAN-GP
4.3.1 Wasserstein损失
4.3.2 利普希茨约束
4.3.3 施加利普希茨约束
4.3.4 梯度惩罚损失
4.3.5 训练WGAN-GP
4.3.6 分析WGAN-GP
4.4 条件GAN（CGAN）
4.4.1 CGAN架构
4.4.2 训练CGAN
4.4.3 分析CGAN
4.5 小结
4.6 参考资料
第5章自回归模型
5.1 引言
5.2 长短期记忆网络
5.2.1 Recipes数据集
5.2.2 处理文本数据
5.2.3 分词
5.2.4 创建训练集
5.2.5 LSTM架构
5.2.6 嵌入层
5.2.7 LSTM层
5.2.8 LSTM元胞
5.2.9 训练LSTM
5.2.10 分析LSTM
5.3 循环神经网络扩展
5.3.1 堆叠式循环网络
5.3.2 门控制循环单元
5.3.3 双向元胞
5.4 PixelCNN
5.4.1 掩码卷积层
5.4.2 残差块
5.4.3 训练PixelCNN
5.4.4 分析PixelCNN
5.4.5 混合分布
5.5 小结
5.6 参考资料
第6章标准化流模型
6.1 引言
6.2 标准化流
6.2.1 变量变换
6.2.2 雅可比行列式
6.2.3 变量变换方程
6.3 RealNVP
6.3.1 双月数据集
6.3.2 耦合层
6.3.3 训练RealNVP模型
6.3.4 分析RealNVP模型
6.4 其他标准化流模型
6.4.1 GLOW
6.4.2 FFJORD
6.5 小结
6.6 参考资料
第7章基于能量的模型
7.1 引言
7.2 基于能量的模型
7.2.1 MNIST数据集
7.2.2 能量函数
7.2.3 使用朗之万动力学采样
7.2.4 使用对比散度训练模型
7.2.5 分析基于能量的模型
7.2.6 其他基于能量的模型
7.3 小结
7.4 参考资料
第8章扩散模型
8.1 引言
8.2 去噪扩散模型
8.2.1 Flowers数据集
8.2.2 前向扩散过程
8.2.3 重新参数化技巧
8.2.4 扩散计划
8.2.5 反向扩散过程
8.2.6 U-Net去噪模型
8.2.7 训练扩散模型
8.2.8 从去噪扩散模型中采样
8.2.9 分析扩散模型
8.3 小结
8.4 参考资料
第三部分应用
第9章 Transformer
9.1 引言
9.2 GPT
9.2.1 葡萄酒评论数据集
9.2.2 注意力
9.2.3 查询与键值
9.2.4 多头注意力
9.2.5 因果掩码
9.2.6 Transformer块
9.2.7 位置编码
9.2.8 训练GPT
9.2.9 分析GPT
9.3 其他Transformer
9.3.1 T5
9.3.2 GPT-3和GPT-4
9.3.3 ChatGPT
9.4 小结
9.5 参考资料
第10章高级GAN
10.1 引言
10.2 ProGAN
10.2.1 渐进式训练
10.2.2 输出
10.3 StyleGAN
10.3.1 映射网络
10.3.2 合成网络
10.3.3 StyleGAN的输出
10.4 StyleGAN2
10.4.1 权重调制与去调制
10.4.2 路径长度正则化
10.4.3 非渐进式增长
10.4.4 StyleGAN2的输出
10.5 其他重要的GAN
10.5.1 自注意力GAN（SAGAN）
10.5.2 BigGAN
10.5.3 VQ-GAN
10.5.4 ViT VQ-GAN
10.6 小结
10.7 参考资料
第11章音乐生成
11.1 引言
11.2 音乐生成Transformer
11.2.1 巴赫大提琴组曲数据集
11.2.2 解析MIDI文件
11.2.3 分词
11.2.4 创建训练集
11.2.5 正弦位置编码
11.2.6 多个输入与输出
11.2.7 分析音乐生成Transformer
11.2.8 复音音乐的分词
11.3 MuseGAN
11.3.1 巴赫圣咏曲数据集
11.3.2 MuseGAN生成器
11.3.3 MuseGAN评论者
11.3.4 分析MuseGAN
11.4 小结
11.5 参考资料
第12章世界模型
12.1 引言
12.2 强化学习
12.3 世界模型简介
12.3.1 架构
12.3.2 训练
12.4 收集随机rollout数据
12.5 训练VAE
12.5.1 VAE架构
12.5.2 探索VAE
12.6 收集训练MDN-RNN的数据
12.7 训练MDN-RNN
12.7.1 MDN-RNN的架构
12.7.2 从MDN-RNN中采样
12.8 训练控制器
12.8.1 控制器的架构
12.8.2 CMA-ES
12.8.3 并行化CMA-ES
12.9 在想象环境中训练
12.10 小结
12.11 参考资料
第13章多模态模型
13.1 引言
13.2 DALL.E 2
13.2.1 架构
13.2.2 文本编码器
13.2.3 CLIP
13.2.4 先验
13.2.5 解码器
13.2.6 DALL.E 2生成的示例
13.3 Imagen
13.3.1 架构
13.3.2 DrawBench
13.3.3 Imagen生成的示例
13.4 Stable Diffusion
13.4.1 架构
13.4.2 Stable Diffusion生成的示例
13.5 Flamingo
13.5.1 架构
13.5.2 视觉编码器
13.5.3 感知重采样器
13.5.4 语言模型
13.5.5 Flamingo生成的示例
13.6 小结
13.7 参考资料
第14章总结
14.1 生成式AI的时间线
14.1.1 2014~2017 年：VAE与GAN时代
14.1.2 2018、2019 年：Transformer时代
14.1.3 2020~2022 年：大模型时代
14.2 生成式AI的现状
14.2.1 大型语言模型
14.2.2 文本到代码模型
14.2.3 文本到图像模型
14.2.4 其他应用
14.3 生成式AI的未来
14.3.1 生成式AI对日常生活的影响
14.3.2 生成式AI对工作环境的影响
14.3.3 生成式AI对教育的影响
14.3.4 生成式AI面临的道德问题与挑战
14.4 最后的感想
14.5 参考资料

书名：生成式深度学习（第二版）

作者：David Foster 著

译者：马晶慧译

国内出版社：中国电力出版社

出版时间：2025年09月

页数：454

书号：978-7-5239-0195-3

原版书书名：Generative Deep Learning, 2nd Edition

原版书出版商：O'Reilly Media

David Foster

David Foster是Applied Data Science的联合创始人，这是一家数据科学咨询公司，为客户提供创新的解决方案。他拥有英国剑桥三一学院的数学硕士学位，以及华威大学运筹学硕士学位。
David曾多次赢得国际机器学习竞赛，包括 InnoCentive Predicting Product Purchase 大奖赛，并获得了可视化的第一名，这项技术可以帮助美国的制药公司优化临床试验的选址。
David活跃在在线数据科学社区，并撰写了一系列有关深度强化学习的博客文章，包括《How To Build Your Own AlphaZero AI Using Python and Keras》(地址:http://bit. ly/2J6fGhU)。

查看David Foster更多信息

本书封面的动物是一只彩绘锥尾鹦鹉（学名：Pyrrhura picta）。Pyrrhura属于Psittacidae家族，是三大鹦鹉家族之一。西半球的金刚鹦鹉和长尾小鹦鹉属于其亚科。彩绘锥尾鹦鹉栖居在南美东北部的沿海森林和山区。
这种鹦鹉鸟体覆盖着明亮的绿色羽毛，鸟喙上方带有蓝色，脸颊为棕色，胸部以及尾部则为红色。脖子上的羽毛就像鳞片一样，实属罕见。中心为棕色，而轮廓为灰白色。这种颜色搭配与热带雨林的鸟类十分相像。
彩绘锥尾鹦鹉喜欢在树林间觅食，绿色的羽毛是最好的掩饰。它们通常以5~12只的小群体觅食，主要以水果，种子和花朵为食。偶尔在树冠下觅食时，也会吃水塘表面的水藻。成鸟身长约9英寸（22厘米），寿命可达13~15年。通常每窝大约产5枚卵，孵化时卵宽不足一英寸（2.54厘米）。

购买选项

定价：148.00元

书号：978-7-5239-0195-3

出版社：中国电力出版社

联系出版社邮购