生成式深度学习(第二版)
生成式深度学习(第二版)
David Foster
马晶慧 译
出版时间:2025年09月
页数:454
“本书深入浅出地介绍了生成式建模深度学习工具包。如果你是一位富有创造力的编程爱好者,希望在实际工作中应用深度学习,那么本书是不二之选。”
——David Ha
Stability AI的战略主管
“这本精彩的教程深入探讨了最先进的生成式深度学习技术。带你体验人工智能世界中最令人着迷的一次精彩探索!”
——Francois Chollet
Keras创建者

生成式人工智能是高科技领域最热门的话题之一。机器学习工程师和数据科学家可以通过本书学习如何使用TensorFlow和Keras,从零开始构建强大的生成式深度学习模型,包括变分自编码器(VAE)、生成对抗网络(GAN)、Transformer、标准化流模型、基于能量的模型(EBM)以及去噪扩散模型。
本书从深度学习的基础知识讲起,逐步深入当前最尖端的架构。你可以通过书中的技巧和窍门,学习如何构建能够更有效地学习以及更具创造力的模型。
● 学习如何通过变分自动编码器(VAE)改变图像中人物的面部表情。
● 学习如何训练GAN,根据数据集生成图像。
● 学习如何构建扩散模型,生成全新的花卉品种。
● 学习如何训练自己的生成文本GPT。
● 了解大型语言模型(如ChatGPT)的训练过程。
● 探索最先进的生成式架构,如StyleGAN2和ViT-VQGAN。
● 使用Transformer和MuseGAN创作多声部乐曲。
● 学习生成式世界模型如何解决强化学习任务。
● 深入研究多模态模型,如DALL.E 2、Imagen和Stable Diffusion。
此外,本书还探讨了生成式AI的未来发展,以及个人和企业如何主动利用这项突破性技术来获得竞争优势。
  1. 前言
  2. 第一部分 生成式深度学习简介
  3. 第1章 生成式建模
  4. 1.1 什么是生成式建模
  5. 1.1.1 生成式建模与判别式建模
  6. 1.1.2 生成式建模的兴起
  7. 1.1.3 生成式建模与AI
  8. 1.2 我们的第一个生成式建模
  9. 1.2.1 Hello World
  10. 1.2.2 生成式建模框架
  11. 1.2.3 表示学习
  12. 1.3 核心概率理论
  13. 1.4 生成式模型的分类
  14. 1.5 生成式深度学习代码库
  15. 1.5.1 克隆代码库
  16. 1.5.2 使用Dokcer
  17. 1.5.3 运行GPU
  18. 1.6 小结
  19. 1.7 参考资料
  20. 第2章 深度学习
  21. 2.1 深度学习的数据
  22. 2.2 深度神经网络
  23. 2.2.1 什么是神经网络
  24. 2.2.2 学习高层特征
  25. 2.2.3 TensorFlow和Keras
  26. 2.3 多层感知器
  27. 2.3.1 准备数据
  28. 2.3.2 构建模型
  29. 2.3.3 编译模型
  30. 2.3.4 训练模型
  31. 2.3.5 评估模型
  32. 2.4 卷积神经网络(CNN)
  33. 2.4.1 卷积层
  34. 2.4.2 批标准化
  35. 2.4.3 Dropout层
  36. 2.4.4 构建CNN
  37. 2.4.5 训练和评估CNN
  38. 2.5 小结
  39. 2.6 参考资料
  40. 第二部分 方法
  41. 第3章 变分自动编码器
  42. 3.1 引言
  43. 3.2 自动编码器
  44. 3.2.1 Fashion-MNIST数据集
  45. 3.2.2 自动编码器的架构
  46. 3.2.3 编码器
  47. 3.2.4 解码器
  48. 3.2.5 连接编码器与解码器
  49. 3.2.6 重建图像
  50. 3.2.7 可视化隐空间
  51. 3.2.8 生成新图像
  52. 3.3 变分自动编码器
  53. 3.3.1 编码器
  54. 3.3.2 损失函数
  55. 3.3.3 训练变分自动编码器
  56. 3.3.4 分析变分自动编码器
  57. 3.4 探索隐空间
  58. 3.4.1 CelebA数据集
  59. 3.4.2 训练变分自动编码器
  60. 3.4.3 分析变分自动编码器
  61. 3.4.4 生成新面孔
  62. 3.4.5 隐空间的算术运算
  63. 3.4.6 面部变形
  64. 3.5 小结
  65. 3.6 参考资料
  66. 第4章 生成对抗网络
  67. 4.1 引言
  68. 4.2 深度卷积GAN(DCGAN)
  69. 4.2.1 Bricks数据集
  70. 4.2.2 判别器
  71. 4.2.3 生成器
  72. 4.2.4 训练DCGAN
  73. 4.2.5 分析DCGAN
  74. 4.2.6 训练GAN的技巧
  75. 4.3 WGAN-GP
  76. 4.3.1 Wasserstein损失
  77. 4.3.2 利普希茨约束
  78. 4.3.3 施加利普希茨约束
  79. 4.3.4 梯度惩罚损失
  80. 4.3.5 训练WGAN-GP
  81. 4.3.6 分析WGAN-GP
  82. 4.4 条件GAN(CGAN)
  83. 4.4.1 CGAN架构
  84. 4.4.2 训练CGAN
  85. 4.4.3 分析CGAN
  86. 4.5 小结
  87. 4.6 参考资料
  88. 第5章 自回归模型
  89. 5.1 引言
  90. 5.2 长短期记忆网络
  91. 5.2.1 Recipes数据集
  92. 5.2.2 处理文本数据
  93. 5.2.3 分词
  94. 5.2.4 创建训练集
  95. 5.2.5 LSTM架构
  96. 5.2.6 嵌入层
  97. 5.2.7 LSTM层
  98. 5.2.8 LSTM元胞
  99. 5.2.9 训练LSTM
  100. 5.2.10 分析LSTM
  101. 5.3 循环神经网络扩展
  102. 5.3.1 堆叠式循环网络
  103. 5.3.2 门控制循环单元
  104. 5.3.3 双向元胞
  105. 5.4 PixelCNN
  106. 5.4.1 掩码卷积层
  107. 5.4.2 残差块
  108. 5.4.3 训练PixelCNN
  109. 5.4.4 分析PixelCNN
  110. 5.4.5 混合分布
  111. 5.5 小结
  112. 5.6 参考资料
  113. 第6章 标准化流模型
  114. 6.1 引言
  115. 6.2 标准化流
  116. 6.2.1 变量变换
  117. 6.2.2 雅可比行列式
  118. 6.2.3 变量变换方程
  119. 6.3 RealNVP
  120. 6.3.1 双月数据集
  121. 6.3.2 耦合层
  122. 6.3.3 训练RealNVP模型
  123. 6.3.4 分析RealNVP模型
  124. 6.4 其他标准化流模型
  125. 6.4.1 GLOW
  126. 6.4.2 FFJORD
  127. 6.5 小结
  128. 6.6 参考资料
  129. 第7章 基于能量的模型
  130. 7.1 引言
  131. 7.2 基于能量的模型
  132. 7.2.1 MNIST数据集
  133. 7.2.2 能量函数
  134. 7.2.3 使用朗之万动力学采样
  135. 7.2.4 使用对比散度训练模型
  136. 7.2.5 分析基于能量的模型
  137. 7.2.6 其他基于能量的模型
  138. 7.3 小结
  139. 7.4 参考资料
  140. 第8章 扩散模型
  141. 8.1 引言
  142. 8.2 去噪扩散模型
  143. 8.2.1 Flowers数据集
  144. 8.2.2 前向扩散过程
  145. 8.2.3 重新参数化技巧
  146. 8.2.4 扩散计划
  147. 8.2.5 反向扩散过程
  148. 8.2.6 U-Net去噪模型
  149. 8.2.7 训练扩散模型
  150. 8.2.8 从去噪扩散模型中采样
  151. 8.2.9 分析扩散模型
  152. 8.3 小结
  153. 8.4 参考资料
  154. 第三部分 应用
  155. 第9章 Transformer
  156. 9.1 引言
  157. 9.2 GPT
  158. 9.2.1 葡萄酒评论数据集
  159. 9.2.2 注意力
  160. 9.2.3 查询与键值
  161. 9.2.4 多头注意力
  162. 9.2.5 因果掩码
  163. 9.2.6 Transformer块
  164. 9.2.7 位置编码
  165. 9.2.8 训练GPT
  166. 9.2.9 分析GPT
  167. 9.3 其他Transformer
  168. 9.3.1 T5
  169. 9.3.2 GPT-3和GPT-4
  170. 9.3.3 ChatGPT
  171. 9.4 小结
  172. 9.5 参考资料
  173. 第10章 高级GAN
  174. 10.1 引言
  175. 10.2 ProGAN
  176. 10.2.1 渐进式训练
  177. 10.2.2 输出
  178. 10.3 StyleGAN
  179. 10.3.1 映射网络
  180. 10.3.2 合成网络
  181. 10.3.3 StyleGAN的输出
  182. 10.4 StyleGAN2
  183. 10.4.1 权重调制与去调制
  184. 10.4.2 路径长度正则化
  185. 10.4.3 非渐进式增长
  186. 10.4.4 StyleGAN2的输出
  187. 10.5 其他重要的GAN
  188. 10.5.1 自注意力GAN(SAGAN)
  189. 10.5.2 BigGAN
  190. 10.5.3 VQ-GAN
  191. 10.5.4 ViT VQ-GAN
  192. 10.6 小结
  193. 10.7 参考资料
  194. 第11章 音乐生成
  195. 11.1 引言
  196. 11.2 音乐生成Transformer
  197. 11.2.1 巴赫大提琴组曲数据集
  198. 11.2.2 解析MIDI文件
  199. 11.2.3 分词
  200. 11.2.4 创建训练集
  201. 11.2.5 正弦位置编码
  202. 11.2.6 多个输入与输出
  203. 11.2.7 分析音乐生成Transformer
  204. 11.2.8 复音音乐的分词
  205. 11.3 MuseGAN
  206. 11.3.1 巴赫圣咏曲数据集
  207. 11.3.2 MuseGAN生成器
  208. 11.3.3 MuseGAN评论者
  209. 11.3.4 分析MuseGAN
  210. 11.4 小结
  211. 11.5 参考资料
  212. 第12章 世界模型
  213. 12.1 引言
  214. 12.2 强化学习
  215. 12.3 世界模型简介
  216. 12.3.1 架构
  217. 12.3.2 训练
  218. 12.4 收集随机rollout数据
  219. 12.5 训练VAE
  220. 12.5.1 VAE架构
  221. 12.5.2 探索VAE
  222. 12.6 收集训练MDN-RNN的数据
  223. 12.7 训练MDN-RNN
  224. 12.7.1 MDN-RNN的架构
  225. 12.7.2 从MDN-RNN中采样
  226. 12.8 训练控制器
  227. 12.8.1 控制器的架构
  228. 12.8.2 CMA-ES
  229. 12.8.3 并行化CMA-ES
  230. 12.9 在想象环境中训练
  231. 12.10 小结
  232. 12.11 参考资料
  233. 第13章 多模态模型
  234. 13.1 引言
  235. 13.2 DALL.E 2
  236. 13.2.1 架构
  237. 13.2.2 文本编码器
  238. 13.2.3 CLIP
  239. 13.2.4 先验
  240. 13.2.5 解码器
  241. 13.2.6 DALL.E 2生成的示例
  242. 13.3 Imagen
  243. 13.3.1 架构
  244. 13.3.2 DrawBench
  245. 13.3.3 Imagen生成的示例
  246. 13.4 Stable Diffusion
  247. 13.4.1 架构
  248. 13.4.2 Stable Diffusion生成的示例
  249. 13.5 Flamingo
  250. 13.5.1 架构
  251. 13.5.2 视觉编码器
  252. 13.5.3 感知重采样器
  253. 13.5.4 语言模型
  254. 13.5.5 Flamingo生成的示例
  255. 13.6 小结
  256. 13.7 参考资料
  257. 第14章 总结
  258. 14.1 生成式AI的时间线
  259. 14.1.1 2014~2017 年:VAE与GAN时代
  260. 14.1.2 2018、2019 年:Transformer时代
  261. 14.1.3 2020~2022 年:大模型时代
  262. 14.2 生成式AI的现状
  263. 14.2.1 大型语言模型
  264. 14.2.2 文本到代码模型
  265. 14.2.3 文本到图像模型
  266. 14.2.4 其他应用
  267. 14.3 生成式AI的未来
  268. 14.3.1 生成式AI对日常生活的影响
  269. 14.3.2 生成式AI对工作环境的影响
  270. 14.3.3 生成式AI对教育的影响
  271. 14.3.4 生成式AI面临的道德问题与挑战
  272. 14.4 最后的感想
  273. 14.5 参考资料
书名:生成式深度学习(第二版)
作者:David Foster
译者:马晶慧 译
国内出版社:中国电力出版社
出版时间:2025年09月
页数:454
书号:978-7-5239-0195-3
原版书书名:Generative Deep Learning, 2nd Edition
原版书出版商:O'Reilly Media
David Foster
 
David Foster是Applied Data Science的联合创始人,这是一家数据科学咨询公司,为客户提供创新的解决方案。他拥有英国剑桥三一学院的数学硕士学位,以及华威大学运筹学硕士学位。
David曾多次赢得国际机器学习竞赛,包括 InnoCentive Predicting Product Purchase 大奖赛,并获得了可视化的第一名,这项技术可以帮助美国的制药公司优化临床试验的选址。
David活跃在在线数据科学社区,并撰写了一系列有关深度强化学习的博客文章,包括《How To Build Your Own AlphaZero AI Using Python and Keras》(地址:http://bit. ly/2J6fGhU)。
 
 
本书封面的动物是一只彩绘锥尾鹦鹉(学名:Pyrrhura picta)。Pyrrhura属于Psittacidae家族,是三大鹦鹉家族之一。西半球的金刚鹦鹉和长尾小鹦鹉属于其亚科。彩绘锥尾鹦鹉栖居在南美东北部的沿海森林和山区。
这种鹦鹉鸟体覆盖着明亮的绿色羽毛,鸟喙上方带有蓝色,脸颊为棕色,胸部以及尾部则为红色。脖子上的羽毛就像鳞片一样,实属罕见。中心为棕色,而轮廓为灰白色。这种颜色搭配与热带雨林的鸟类十分相像。
彩绘锥尾鹦鹉喜欢在树林间觅食,绿色的羽毛是最好的掩饰。它们通常以5~12只的小群体觅食,主要以水果,种子和花朵为食。偶尔在树冠下觅食时,也会吃水塘表面的水藻。成鸟身长约9英寸(22厘米),寿命可达13~15年。通常每窝大约产5枚卵,孵化时卵宽不足一英寸(2.54厘米)。
购买选项
定价:148.00元
书号:978-7-5239-0195-3
出版社:中国电力出版社