差分隐私:OpenDP理论与实践
差分隐私:OpenDP理论与实践
Ethan Cowan, Michael Shoemate, Mayana Pereira
梁程, 卢夏禹, 陈星任, 李燕宏 译
出版时间:2025年09月
页数:292
“这本书满足了实践数据科学家在对敏感数据进行统计分析或机器学习时的迫切需求。”
——Salil Vadhan
Vicky Joseph计算机科学与应用数学教授,OpenDP联合主任

许多组织如今都会分析并分享涉及个人信息的大型敏感数据集。无论这些数据集涵盖的是医疗细节还是财务记录,组织都越来越难以通过去身份化、匿名化及其他传统的统计披露限制技术来保护个人信息。这本书详细阐述了针对此类问题,差分隐私(DP)如何提供帮助。
作者 Ethan Cowan、Michael Shoemate和Mayana Pereira讲解了这些技术如何让数据科学家、研究人员和程序员在进行统计分析时隐藏单个个体的信息。你将深入掌握基本的差分隐私概念,学习使用开源工具生成差分隐私统计数据,探讨如何权衡实用性和隐私性,并学会将差分隐私集成到工作流中。
通过阅读本书,你将学到:
● 当其他数据匿名化方法无法保证隐私时,差分隐私如何发挥作用。
● 数据集中的个体隐私保护包含哪些内容。
● 如何在多个实际场景和数据集中应用差分隐私。
● 潜在的隐私攻击方法,包括重新识别攻击的含义。
● 如何在隐私保护数据发布中使用OpenDP库。
● 如何解释特定差分隐私数据发布所提供的保证。
  1. 前言
  2. 第一部分 差分隐私的概念
  3. 第1章 欢迎来到差分隐私的世界
  4. 1.1 历史
  5. 1.2 差分隐私之前的数据私有化
  6. 1.3 案例研究:课堂场景中应用差分隐私技术
  7. 1.3.1 隐私保护与均值计算
  8. 1.3.2 隐私泄露的防范机制
  9. 1.4 相邻数据集:个体退出场景分析
  10. 1.5 敏感度:统计量的变化范围
  11. 1.6 噪声注入机制
  12. 1.7 可用工具概览
  13. 1.8 总结
  14. 1.9 练习
  15. 第2章 差分隐私的基本原理
  16. 2.1 隐私保护的直观理解
  17. 2.1.1 隐私单元
  18. 2.1.2 隐私损失
  19. 2.2 差分隐私的正式化定义
  20. 2.2.1 随机响应
  21. 2.2.2 隐私侵犯
  22. 2.3 差分隐私模型分类
  23. 2.4 敏感度深度解析
  24. 2.5 差分隐私机制总览
  25. 2.5.1 拉普拉斯机制
  26. 2.5.2 拉普拉斯机制的ε-DP证明
  27. 2.5.3 机制准确性分析
  28. 2.5.4 学生家庭类型统计案例
  29. 2.5.5 指数机制
  30. 2.6 差分隐私查询的组合性
  31. 2.7 差分隐私后处理不变性
  32. 2.8 使用SmartNoise实现差分隐私查询
  33. 2.8.1 示例1:差分隐私计数
  34. 2.8.2 示例2:差分隐私求和
  35. 2.8.3 示例3:单数据库多查询处理
  36. 2.9 总结
  37. 2.10 练习
  38. 第3章 稳定变换
  39. 3.1 距离度量
  40. 3.1.1 数据集相邻性
  41. 3.1.2 有界差分隐私与无界差分隐私
  42. 3.2 c-稳定变换的定义
  43. 3.2.1 变换案例:双重变换
  44. 3.2.2 变换案例:逐行变换
  45. 3.3 稳定性是敏感度的充要条件
  46. 3.3.1 变换案例:计数
  47. 3.3.2 变换案例:未知大小求和
  48. 3.4 域描述符
  49. 3.5 链式变换
  50. 3.6 度量空间
  51. 3.7 稳定性的定义
  52. 3.7.1 变换案例:已知大小求和
  53. 3.7.2 变换案例:已知大小的均值
  54. 3.7.3 变换案例:未知大小的均值
  55. 3.7.4 变换案例:调整大小
  56. 3.7.5 标量聚合器回顾
  57. 3.8 向量值聚合器
  58. 3.8.1 向量范数、距离和敏感度
  59. 3.8.2 有界范数数据聚合
  60. 3.8.3 分组数据
  61. 3.9 实践
  62. 3.10 总结
  63. 3.11 练习
  64. 第4章 隐私机制
  65. 4.1 隐私度量
  66. 4.1.1 隐私度量:最大散度
  67. 4.1.2 度量、散度与隐私度量
  68. 4.2 关于隐私机制
  69. 4.2.1 随机响应机制
  70. 4.2.2 向量拉普拉斯机制
  71. 4.2.3 指数机制
  72. 4.2.4 分位数评分变换
  73. 4.2.5 噪声最大值报告机制
  74. 4.3 交互式查询处理
  75. 4.4 高于阈值
  76. 4.4.1 数据流处理
  77. 4.4.2 在线隐私选择
  78. 4.4.3 流数据稳定性变换
  79. 4.5 总结
  80. 4.6 练习
  81. 第5章 隐私的定义
  82. 5.1 隐私损失随机变量
  83. 5.2 近似差分隐私
  84. 5.2.1 截断噪声机制
  85. 5.2.2 建议-测试-发布
  86. 5.2.3 高级组合定理
  87. 5.3 高斯机制
  88. 5.4 Rényi差分隐私
  89. 5.4.1 零集中差分隐私
  90. 5.4.2 基于矩的隐私度量强度分析
  91. 5.5 有界范围机制
  92. 5.6 隐私损失分布
  93. 5.6.1 数值组合
  94. 5.6.2 特征函数
  95. 5.7 假设检验解释
  96. 5.8 总结
  97. 5.9 练习
  98. 第6章 组合范式精要
  99. 6.1 链式处理
  100. 6.1.1 示例:边界估计
  101. 6.1.2 示例:B树结构
  102. 6.2 隐私度量转换
  103. 6.3 组合
  104. 6.3.1 自适应组合
  105. 6.3.2 里程表和过滤器
  106. 6.4 分区数据处理
  107. 6.4.1 示例:对寻求庇护者的数据进行分组
  108. 6.4.2 并行组合
  109. 6.4.3 示例:多分位数计算
  110. 6.5 隐私增强
  111. 6.5.1 通过简单随机抽样实现隐私增强
  112. 6.5.2 通过泊松抽样实现隐私增强
  113. 6.5.3 通过混洗实现隐私增强
  114. 6.6 抽样与聚合
  115. 6.7 隐私候选集选择
  116. 6.8 总结
  117. 6.9 练习
  118. 第二部分 差分隐私在实践中的应用
  119. 第7章 隐私单元深度解析
  120. 7.1 隐私层级体系
  121. 7.2 浏览器日志示例:朴素事件级保证
  122. 7.3具有无界贡献的数据集
  123. 7.4 数据集截断
  124. 7.4.1 蓄水池抽样
  125. 7.4.2 分区数据截断
  126. 7.4.3 医院就诊示例:偏差-方差权衡
  127. 7.5 截断阈值的隐私估计
  128. 7.6 未知域名问题
  129. 7.7 截断操作的适用场景
  130. 7.7.1 稳定性分组变换
  131. 7.7.2 稳定性并集变换
  132. 7.7.3 稳定性连接变换
  133. 7.8 总结
  134. 7.9 练习
  135. 第8章 差分隐私统计建模
  136. 8.1 隐私推理
  137. 8.2 差分隐私的线性回归
  138. 8.2.1 充分统计量扰动
  139. 8.2.2 隐私Theil-Sen估计器
  140. 8.2.3 目标函数扰动
  141. 8.3 算法选择策略
  142. 8.4 差分隐私朴素贝叶斯
  143. 8.4.1 分类朴素贝叶斯
  144. 8.4.2 连续朴素贝叶斯
  145. 8.4.3 机制设计方案
  146. 8.4.4 示例:朴素贝叶斯实现
  147. 8.5 隐私决策树
  148. 8.6 总结
  149. 8.7 练习
  150. 第9章 差分隐私机器学习
  151. 9.1 机器学习模型隐私保护必要性
  152. 9.2 机器学习术语回顾
  153. 9.3 差分隐私梯度下降
  154. 9.4 随机批处理
  155. 9.4.1 并行组合应用
  156. 9.4.2 通过子抽样实现隐私增强
  157. 9.4.3 超参数调优
  158. 9.5 隐私聚合教师模型
  159. 9.6 使用PyTorch训练差分隐私模型
  160. 9.7 总结
  161. 9.8 练习
  162. 第10章 差分隐私合成数据
  163. 10.1 合成数据的定义
  164. 10.2 合成数据应用场景
  165. 10.3 基于边缘分布的合成器
  166. 10.4 图模型方法
  167. 10.5 GAN合成器
  168. 10.6 总结
  169. 10.7 练习
  170. 第三部分 差分隐私的部署
  171. 第11章 隐私攻击防护
  172. 11.1 隐私侵犯的定义
  173. 11.2 针对表格数据集的攻击
  174. 11.2.1 记录链接攻击
  175. 11.2.2 单独识别攻击
  176. 11.2.3 差分攻击
  177. 11.2.4 方程系统重构攻击
  178. 11.2.5 追踪攻击
  179. 11.2.6 k匿名漏洞
  180. 11.3 机器学习模型攻击
  181. 11.4 总结
  182. 11.5 练习
  183. 第12章 数据发布的隐私损失参数
  184. 12.1 抽样策略
  185. 12.2 元数据参数
  186. 12.3 隐私损失预算分配
  187. 12.4 决策辅助实践
  188. 12.4.1 代码手册与数据标注
  189. 12.4.2 上下文规范参数化
  190. 12.5 在探索性数据分析的背景下进行决策
  191. 12.6 自适应隐私参数选择
  192. 12.7 透明参数选择的潜在风险
  193. 12.8 总结
  194. 12.9 练习
  195. 第13章 规划你的第一个差分隐私项目
  196. 13.1 进行差分隐私部署须考虑的事项
  197. 13.1.1 部署差分隐私的频率
  198. 13.1.2 组合与预算管理
  199. 13.2 差分隐私部署清单
  200. 13.3 示例项目:课堂场景回归
  201. 13.4 真实数据发布规范
  202. 13.4.1 领英经济图谱案例
  203. 13.4.2 微软宽带数据案例
  204. 13.5 差分隐私发布表:发布详情标准
  205. 13.6 结束语
  206. 扩展阅读
  207. 附录
书名:差分隐私:OpenDP理论与实践
译者:梁程, 卢夏禹, 陈星任, 李燕宏 译
国内出版社:机械工业出版社
出版时间:2025年09月
页数:292
书号:978-7-111-78967-3
原版书书名:Hands-On Differential Privacy
原版书出版商:O'Reilly Media
Ethan Cowan
 
Ethan Cowan和哈佛大学的OpenDP团队共同开发了一个差分隐私数据分析平台。
 
 
Michael Shoemate
 
Michael Shoemate是OpenDP库的架构师,致力于开发可靠的软件工具,将差分隐私理论转化为实际应用。
 
 
Mayana Pereira
 
Mayana Pereira是微软的研究科学家,也是OpenDP的贡献者,专注于将隐私和人工智能应用于解决社会问题。
 
 
本书封面上的动物是石笔海胆(Heterocentrotus mamillatus)。这种生物的其他常见名称包括棕色铅笔海胆和红色铅笔海胆。
石笔海胆在整个印度洋一太平洋地区的珊瑚海底和水域中都能找到,在夏威夷尤其丰富。它隐藏在深达约10米的洞穴中。幼年石笔海胆可以在岩石下找到。
一般来说,海胆呈球状,表面覆盖着带刺的外皮。石笔海胆较长的刺长可达12厘米,粗约1厘米,足够坚固,可以用来写字。这种生物的颜色各异,它背部和侧面的长刺颜色从浅棕色到深棕色,而较短的刺则呈现出明显不同的深紫黑色或白色。
这种动物主要以壳状珊瑚藻为食,但也会食用其他类型的藻类,如鸡毛菜属(Pterocladia)和石莼属(Ulva)的藻类。尽管石笔海胆主要过着定居生活,因为它主要食用离它最近的藻类,但与其他海胆相比,这个物种还是比较活跃的。已知它能移动到离出发点达600厘米远的地方,平均每天移动96厘米。
虽然某些种类的海胆被视为濒危物种,但目前石笔海胆并不被认为是受威胁或处于濒危状态。
购买选项
定价:119.00元
书号:978-7-111-78967-3
出版社:机械工业出版社