实体消解指南:使用Python进行数据匹配
实体消解指南:使用Python进行数据匹配
Michael Shearer
林润 译
出版时间:2025年06月
页数:182
“本书填补了掌握实体消解技术的重要空白。数据链接既是科学也是艺术,本书去粗取精,提炼并汇集了许多专业人士才掌握的宝贵知识。”
——Robin Linacre
Splink工具的主要作者
实体消解是一项关键的分析技术,可识别出指向同一实体的多条数据记录。通过这本实用指南,产品经理、数据分析师和数据科学家将学习如何通过使用开源的Python库和云端API,对数据集进行清洗、分析和消解,从而使数据增值。
本书将指导读者快速完成海量数据匹配,同时提高数据匹配的准确性。读者能掌握消除单一数据源中的重复条目,并在缺少公共键的条件下合并不同数据源。通过使用真实数据作为示例,本书将帮助读者获得宝贵的实际经验,以加速交付真正的业务价值。
通过阅读本书,你将能够:
● 应对数据集去重与合并的挑战。
● 提取、清洗和准备用于匹配的数据集。
● 掌握用于识别等价实体的文本匹配算法。
● 掌握大规模数据集的去重与合并方法。
● 匹配包含个人和组织的数据集。
● 优化和调优数据匹配算法。
● 使用云端API进行实体消解。
● 使用隐私增强技术进行匹配。
借助实体消解技术,读者能构建丰富且全面的数据资产,管理风险并发掘新机会,进而发挥机器学习和人工智能的全部潜力。
  1. 前言
  2. 第1章 实体消解入门
  3. 1.1 什么是实体消解
  4. 1.2 实体消解的作用
  5. 1.3 实体消解的主要挑战
  6. 1.3.1 姓名缺少唯一性
  7. 1.3.2 命名约定不一致
  8. 1.3.3 数据获取不一致
  9. 1.3.4 示例
  10. 1.3.5 故意模糊处理
  11. 1.3.6 匹配组合
  12. 1.3.7 盲目匹配
  13. 1.4 实体消解过程
  14. 1.4.1 数据标准化
  15. 1.4.2 记录分块
  16. 1.4.3 属性比较
  17. 1.4.4 匹配分类
  18. 1.4.5 聚类
  19. 1.4.6 规范化
  20. 1.4.7 示例
  21. 1.5 评估结果
  22. 1.6 正式开始
  23. 第2章 数据标准化
  24. 2.1 案例
  25. 2.2 设置环境
  26. 2.3 获取数据
  27. 2.3.1 维基百科数据
  28. 2.3.2 TheyWorkForYou数据
  29. 2.4 清洗数据
  30. 2.4.1 清洗维基百科数据
  31. 2.4.2 清洗TheyWorkForYou数据
  32. 2.5 比较属性
  33. 2.6 选区
  34. 2.7 评估结果
  35. 2.8 计算样本
  36. 2.9 总结
  37. 第3章 文本匹配
  38. 3.1 编辑距离匹配
  39. 3.1.1 Levenshtein距离
  40. 3.1.2 Jaro相似度
  41. 3.1.3 Jaro-Winkler相似度
  42. 3.2 语音匹配
  43. 3.2.1 Metaphone算法
  44. 3.2.2 MRA算法
  45. 3.3 技术比较
  46. 3.4 案例
  47. 3.5 全面相似度比较
  48. 3.6 评估结果
  49. 3.7 总结
  50. 第4章 概率匹配
  51. 4.1 案例
  52. 4.2 单一属性匹配概率
  53. 4.2.1 名字匹配概率
  54. 4.2.2 姓氏匹配概率
  55. 4.3 多属性匹配概率
  56. 4.4 概率模型
  57. 4.4.1 贝叶斯定理
  58. 4.4.2 m值
  59. 4.4.3 u值
  60. 4.4.4 λ值
  61. 4.4.5 贝叶斯因子
  62. 4.4.6 Fellegi-Sunter模型
  63. 4.4.7 匹配权重
  64. 4.5 期望最大化算法
  65. 4.5.1 第一次迭代
  66. 4.5.2 第二次迭代
  67. 4.5.3 第三次迭代
  68. 4.6 Splink入门
  69. 4.6.1 配置Splink
  70. 4.6.2 Splink匹配结果
  71. 4.7 总结
  72. 第5章 记录分块
  73. 5.1 案例
  74. 5.2 获取数据
  75. 5.2.1 维基百科数据
  76. 5.2.2 英国公司注册署数据
  77. 5.3 数据标准化
  78. 5.3.1 维基百科数据
  79. 5.3.2 英国公司注册署数据
  80. 5.4 记录分块与属性比较
  81. 5.4.1 使用Splink进行记录分块
  82. 5.4.2 比较属性
  83. 5.5 匹配分类
  84. 5.6 评估结果
  85. 5.7 总结
  86. 第6章 匹配公司
  87. 6.1 案例
  88. 6.2 获取数据
  89. 6.3 数据标准化
  90. 6.3.1 英国公司注册署数据
  91. 6.3.2 英国海事及海岸警卫署数据
  92. 6.4 记录分块与属性比较
  93. 6.5 匹配分类
  94. 6.6 评估结果
  95. 6.7 匹配新实体
  96. 6.8 总结
  97. 第7章 聚类
  98. 7.1 简单精确匹配聚类
  99. 7.2 近似匹配聚类
  100. 7.3 案例
  101. 7.3.1 获取数据
  102. 7.3.2 数据标准化
  103. 7.4 记录分块与属性比较
  104. 7.4.1 数据分析
  105. 7.4.2 期望最大化分块规则
  106. 7.5 匹配分类与聚类
  107. 7.6 簇可视化
  108. 7.7 聚类分析
  109. 7.8 总结
  110. 第8章 使用谷歌云平台进行扩展
  111. 8.1 谷歌云设置
  112. 8.2 创建Dataproc集群
  113. 8.3 配置Dataproc集群
  114. 8.4 使用Spark进行实体消解
  115. 8.5 评估结果
  116. 8.6 整理工作
  117. 8.7 总结
  118. 第9章 实体消解云服务
  119. 9.1 BigQuery简介
  120. 9.2 企业知识图谱API
  121. 9.2.1 模式映射
  122. 9.2.2 消解作业
  123. 9.2.3 处理结果
  124. 9.2.4 实体消解Python客户端
  125. 9.3 评估结果
  126. 9.4 总结
  127. 第10章 利用记录关联技术保护隐私
  128. 10.1 隐私集合求交简介
  129. 10.2 PSI原理
  130. 10.3 基于ECDH的PSI协议
  131. 10.3.1 布隆过滤器
  132. 10.3.2 格伦布编码集
  133. 10.4 案例:使用PSI
  134. 10.4.1 设置环境
  135. 10.4.2 服务器代码
  136. 10.4.3 客户端代码
  137. 10.4.4 完整的MCA和公司注册署样本示例
  138. 10.5 总结
  139. 第11章 进一步探讨
  140. 11.1 数据问题探讨
  141. 11.1.1 非结构化数据问题
  142. 11.1.2 数据质量问题
  143. 11.1.3 时效性问题
  144. 11.2 属性比较
  145. 11.2.1 集合匹配
  146. 11.2.2 地理编码位置匹配
  147. 11.2.3 汇总比较
  148. 11.3 后处理
  149. 11.4 图形表示
  150. 11.5 实时性问题
  151. 11.6 评估结果
  152. 11.6.1 成对方法
  153. 11.6.2 基于簇的方法
  154. 11.7 实体消解的未来
书名:实体消解指南:使用Python进行数据匹配
作者:Michael Shearer
译者:林润 译
国内出版社:机械工业出版社
出版时间:2025年06月
页数:182
书号:978-7-111-78329-9
原版书书名:Hands-On Entity Resolution
原版书出版商:O'Reilly Media
Michael Shearer
 
Michael Shearer是HAWK:AI公司的首席解决方案官,该公司致力于帮助金融机构侦测金融犯罪活动。作为汇丰银行前董事总经理,他在2014—2023年间主导开发了一套合规系统。此外,迈克尔还在英国政府部门拥有20年的工作经验,曾担任多个关键的管理和技术角色。
 
 
本书封面上的动物是赤胸拟啄木鸟(Psilorhinus haemacephalus),它们以具有规律节奏的鸟鸣声著称,这种声音听起来就像是铜匠在敲击金属。
赤胸拟啄木鸟是一种小型鸟类,体长为15~17厘米,体重为1~2盎司(1盎司~28.35克)。它们身上的颜色以绿色为主,头部赤色,脸颊和为黄色,身体下部带有灰色和黑色的条纹。
赤胸拟啄木鸟分布于印度次大陆和东南亚的部分地区,包括孟加拉园、泰国、马来西亚和巴基斯坦。它们将枯木作为栖息地,用在木头上凿出巢穴。它们出没于花园、小树林和稀疏的林地等不同的栖息地,喜欢吃野生无花果、核果、浆果、花瓣,偶尔也会吃昆虫。它们每天可以吃下相当于自身体重1.5~3倍重的浆果。
赤胸拟啄木鸟的数量正在增长,在濒危物种列表中风险最小。然而,0'Reilly图书封面上的许多动物都处于濒危状态,这些动物对世界都非常重要。
购买选项
定价:69.00元
书号:978-7-111-78329-9
出版社:机械工业出版社