AI辅助数据质量监控
李晗玥, 柯幸烨, 陈天皓 译
出版时间:2025年05月
页数:202
“这本书巧妙地阐述了从规则定义、机器学习到规模扩展以及警报疲劳等数据质量的整个生命周期,是一本权威的参考资料。”
——Chris Riccomini
The Missing README的作者
如今,各类企业每天总共要处理250亿亿字节的数据。然而,在这些用于开发产品、驱动人工智能系统以及助力商业决策的数据中,有多少是质量不佳甚至完全没用的数据呢?这本书将向你展示如何确保你的组织所依赖的数据是可靠的。
大多数数据工程师、数据分析师和数据科学家真心关注数据质量,但他们往往没有时间、资源或足够的认知来构建一个能够大规模成功运行的数据质量监控解决方案。在本书中,来自Anomalo公司的Jeremy Stanley和Paige Schwartz将阐释如何利用自动化数据质量监控来高效覆盖所有数据表,主动就问题发出预警,并立即解决问题。
通过阅读这本书,你将:
● 了解为何数据质量是企业的当务之急。
● 构建一个无监督机器学习模型,用于检测数据问题。
● 实施通知机制,以减轻警报疲劳,并快速对问题进行分类并解决它们。
● 将自动化数据质量监控与数据目录、编排层以及商业智能和机器学习系统进行集成。
● 学习如何克服自动化数据质量监控的局限性。
● 了解如何大规模部署和管理你的监控解决方案。
书名:AI辅助数据质量监控
译者:李晗玥, 柯幸烨, 陈天皓 译
国内出版社:机械工业出版社
出版时间:2025年05月
页数:202
书号:978-7-111-78025-0
原版书书名:Automating Data Quality Monitoring
原版书出版商:O'Reilly Media
Jeremy Stanley
Jeremy Stanley是Anomalo公司的联合创始人兼首席技术官。此前,他曾在Instacart公司担任数据科学副总裁,在那里他领导了机器学习项目,并推动了旨在提高公司盈利能力的各项举措。
Paige Schwartz
Paige Schwartz是Anomalo公司的一名专业技术作家,曾为包括Airbnb(爱彼迎)、Grammarly和OpenAI等在内的企业客户撰写文案。她曾担任谷歌的产品经理,擅长机器学习和数据相关领域的话题。
本书封面上的动物是一只姥鲨(Cetorhinus maximus)。姥鲨是世界上第二大的鱼类,虽然它们看起来令人生畏,但实际上是相当温和的生物。
姥鲨最长可达12米,最重可达6吨,它们的大型背鳍使它们在水面游动时容易被发现。它们有一个球状的鼻子,头部几乎被鳃裂环绕。姥鲨通过缓慢游动并张开大嘴摄食,将浮游动物捕捉在鳃耙中。一只姥鲨每小时可以过滤约2000吨海水中的食物。它们广泛分布于全球温带地区。
姥鲨曾被过度捕猎到濒临灭绝的地步。尽管已对它们实施了保护措施,但它们仍可能会被误捞或因被渔具缠住而受伤。此外,它们还面临着被船只撞死的危险。