实体消解指南:使用Python进行数据匹配
林润 译
出版时间:2025年06月
页数:182
“本书填补了掌握实体消解技术的重要空白。数据链接既是科学也是艺术,本书去粗取精,提炼并汇集了许多专业人士才掌握的宝贵知识。”
——Robin Linacre
Splink工具的主要作者
实体消解是一项关键的分析技术,可识别出指向同一实体的多条数据记录。通过这本实用指南,产品经理、数据分析师和数据科学家将学习如何通过使用开源的Python库和云端API,对数据集进行清洗、分析和消解,从而使数据增值。
本书将指导读者快速完成海量数据匹配,同时提高数据匹配的准确性。读者能掌握消除单一数据源中的重复条目,并在缺少公共键的条件下合并不同数据源。通过使用真实数据作为示例,本书将帮助读者获得宝贵的实际经验,以加速交付真正的业务价值。
通过阅读本书,你将能够:
● 应对数据集去重与合并的挑战。
● 提取、清洗和准备用于匹配的数据集。
● 掌握用于识别等价实体的文本匹配算法。
● 掌握大规模数据集的去重与合并方法。
● 匹配包含个人和组织的数据集。
● 优化和调优数据匹配算法。
● 使用云端API进行实体消解。
● 使用隐私增强技术进行匹配。
借助实体消解技术,读者能构建丰富且全面的数据资产,管理风险并发掘新机会,进而发挥机器学习和人工智能的全部潜力。
书名:实体消解指南:使用Python进行数据匹配
译者:林润 译
国内出版社:机械工业出版社
出版时间:2025年06月
页数:182
书号:978-7-111-78329-9
原版书书名:Hands-On Entity Resolution
原版书出版商:O'Reilly Media
Michael Shearer
Michael Shearer是HAWK:AI公司的首席解决方案官,该公司致力于帮助金融机构侦测金融犯罪活动。作为汇丰银行前董事总经理,他在2014—2023年间主导开发了一套合规系统。此外,迈克尔还在英国政府部门拥有20年的工作经验,曾担任多个关键的管理和技术角色。
本书封面上的动物是赤胸拟啄木鸟(Psilorhinus haemacephalus),它们以具有规律节奏的鸟鸣声著称,这种声音听起来就像是铜匠在敲击金属。
赤胸拟啄木鸟是一种小型鸟类,体长为15~17厘米,体重为1~2盎司(1盎司~28.35克)。它们身上的颜色以绿色为主,头部赤色,脸颊和为黄色,身体下部带有灰色和黑色的条纹。
赤胸拟啄木鸟分布于印度次大陆和东南亚的部分地区,包括孟加拉园、泰国、马来西亚和巴基斯坦。它们将枯木作为栖息地,用在木头上凿出巢穴。它们出没于花园、小树林和稀疏的林地等不同的栖息地,喜欢吃野生无花果、核果、浆果、花瓣,偶尔也会吃昆虫。它们每天可以吃下相当于自身体重1.5~3倍重的浆果。
赤胸拟啄木鸟的数量正在增长,在濒危物种列表中风险最小。然而,0'Reilly图书封面上的许多动物都处于濒危状态,这些动物对世界都非常重要。