AI辅助数据质量监控
AI辅助数据质量监控
Jeremy Stanley, Paige Schwartz
李晗玥, 柯幸烨, 陈天皓 译
出版时间:2025年05月
页数:202
“这本书巧妙地阐述了从规则定义、机器学习到规模扩展以及警报疲劳等数据质量的整个生命周期,是一本权威的参考资料。”
——Chris Riccomini
The Missing README的作者
如今,各类企业每天总共要处理250亿亿字节的数据。然而,在这些用于开发产品、驱动人工智能系统以及助力商业决策的数据中,有多少是质量不佳甚至完全没用的数据呢?这本书将向你展示如何确保你的组织所依赖的数据是可靠的。
大多数数据工程师、数据分析师和数据科学家真心关注数据质量,但他们往往没有时间、资源或足够的认知来构建一个能够大规模成功运行的数据质量监控解决方案。在本书中,来自Anomalo公司的Jeremy Stanley和Paige Schwartz将阐释如何利用自动化数据质量监控来高效覆盖所有数据表,主动就问题发出预警,并立即解决问题。
通过阅读这本书,你将:
● 了解为何数据质量是企业的当务之急。
● 构建一个无监督机器学习模型,用于检测数据问题。
● 实施通知机制,以减轻警报疲劳,并快速对问题进行分类并解决它们。
● 将自动化数据质量监控与数据目录、编排层以及商业智能和机器学习系统进行集成。
● 学习如何克服自动化数据质量监控的局限性。
● 了解如何大规模部署和管理你的监控解决方案。
  1. 前言
  2. 第1章 数据质量监控势在必行
  3. 1.1 高质量的数据是新时代的黄金
  4. 1.1.1 数据驱动型公司是当今的颠覆者
  5. 1.1.2 数据分析的普及
  6. 1.1.3 人工智能和机器学习是竞争优势之源
  7. 1.1.4 公司正在投资现代数据栈
  8. 1.2 数据越多,问题越多
  9. 1.2.1 数据工厂中的问题
  10. 1.2.2 数据迁移
  11. 1.2.3 第三方数据源
  12. 1.2.4 公司的成长与变化
  13. 1.2.5 外界因素
  14. 1.3 为什么我们需要数据质量监控
  15. 1.3.1 数据疤痕
  16. 1.3.2 数据冲击
  17. 1.4 自动化数据质量监控:一个全新的领域
  18. 第2章 数据质量监控策略与自动化的角色
  19. 2.1 监控需求
  20. 2.2 数据可观测性:必要但不充分
  21. 2.3 传统的数据质量监控方法
  22. 2.3.1 人工数据质量检测
  23. 2.3.2 基于规则的测试
  24. 2.3.3 指标监控
  25. 2.4 使用无监督机器学习实现自动化数据质量监控
  26. 2.4.1 什么是无监督机器学习
  27. 2.4.2 类比:车道偏离警告
  28. 2.4.3 自动化的局限性
  29. 2.5 数据质量监控的四大支柱方法
  30. 第3章 对自动化数据质量监控的商业影响进行评估
  31. 3.1 对数据进行评估
  32. 3.1.1 数量
  33. 3.1.2 种类
  34. 3.1.3 速度
  35. 3.1.4 真实性
  36. 3.1.5 特殊情况
  37. 3.2 评估你的行业
  38. 3.2.1 监管压力
  39. 3.2.2 人工智能/机器学习的风险
  40. 3.2.3 数据即产品
  41. 3.3 评估你的数据成熟度
  42. 3.4 评估对利益相关方的好处
  43. 3.4.1 工程师
  44. 3.4.2 数据团队领导者
  45. 3.4.3 科学家
  46. 3.4.4 消费者
  47. 3.5 进行投资回报率分析
  48. 3.5.1 定量指标
  49. 3.5.2 定性指标
  50. 3.6 总结
  51. 第4章 利用机器学习使数据质量监控自动化
  52. 4.1 要求
  53. 4.1.1 敏感性
  54. 4.1.2 特异性
  55. 4.1.3 透明度
  56. 4.1.4 可扩展性
  57. 4.1.5 非必要需求
  58. 4.1.6 数据质量监控不等同于异常检测
  59. 4.2 机器学习方法和算法
  60. 4.2.1 数据抽样
  61. 4.2.2 特征编码
  62. 4.2.3 模型开发
  63. 4.2.4 模型可解释性
  64. 4.3 整体思路的伪代码实现
  65. 4.4 其他应用
  66. 4.5 总结
  67. 第5章 构建一个适用于真实数据的模型
  68. 5.1 数据挑战及应对措施
  69. 5.1.1 季节性
  70. 5.1.2 基于时间的特征
  71. 5.1.3 混乱程度
  72. 5.1.4 就地更新表格
  73. 5.1.5 列之间的相关性
  74. 5.2 模型测试
  75. 5.2.1 引入合成异常
  76. 5.2.2 基准测试
  77. 5.2.3 模型改进
  78. 5.3 总结
  79. 第6章 实施警报机制同时避免警报疲劳
  80. 6.1 如何通过通知促进数据问题响应
  81. 6.1.1 分类处理
  82. 6.1.2 路由
  83. 6.1.3 解决方案
  84. 6.1.4 文档记录
  85. 6.2 在没有通知的情况下采取行动
  86. 6.3 一个通知的解析
  87. 6.3.1 可视化
  88. 6.3.2 操作
  89. 6.3.3 文本描述
  90. 6.3.4 检查的创建者/最后编辑者
  91. 6.4 发送通知
  92. 6.4.1 通知的受众
  93. 6.4.2 通知的渠道
  94. 6.4.3 通知的时机
  95. 6.5 避免警报疲劳
  96. 6.5.1 合理安排检查顺序
  97. 6.5.2 使用机器学习对警报进行聚类
  98. 6.5.3 抑制通知
  99. 6.6 自动化根因分析
  100. 6.7 总结
  101. 第7章 集成监控与数据工具和系统
  102. 7.1 监控数据堆栈
  103. 7.2 数据仓库
  104. 7.2.1 与数据仓库集成
  105. 7.2.2 安全性
  106. 7.2.3 多仓库之间的数据协调
  107. 7.3 数据编排器
  108. 7.4 数据目录
  109. 7.5 数据使用者
  110. 7.5.1 BI和分析工具
  111. 7.5.2 MLOps
  112. 7.6 总结
  113. 第8章 大规模运营解决方案
  114. 8.1 自建还是购买
  115. 8.2 配置
  116. 8.2.1 确定最重要的表格
  117. 8.2.2 决定监控表格中的哪些数据
  118. 8.2.3 大规模配置
  119. 8.3 启用
  120. 8.3.1 用户角色和权限
  121. 8.3.2 培训、支持与推广
  122. 8.4 持续改善数据质量
  123. 8.4.1 数据健康计划
  124. 8.4.2 衡量指标
  125. 8.5 从混乱到清晰
  126. 附录 数据质量问题的类型
书名:AI辅助数据质量监控
译者:李晗玥, 柯幸烨, 陈天皓 译
国内出版社:机械工业出版社
出版时间:2025年05月
页数:202
书号:978-7-111-78025-0
原版书书名:Automating Data Quality Monitoring
原版书出版商:O'Reilly Media
Jeremy Stanley
 
Jeremy Stanley是Anomalo公司的联合创始人兼首席技术官。此前,他曾在Instacart公司担任数据科学副总裁,在那里他领导了机器学习项目,并推动了旨在提高公司盈利能力的各项举措。
 
 
Paige Schwartz
 
Paige Schwartz是Anomalo公司的一名专业技术作家,曾为包括Airbnb(爱彼迎)、Grammarly和OpenAI等在内的企业客户撰写文案。她曾担任谷歌的产品经理,擅长机器学习和数据相关领域的话题。
 
 
本书封面上的动物是一只姥鲨(Cetorhinus maximus)。姥鲨是世界上第二大的鱼类,虽然它们看起来令人生畏,但实际上是相当温和的生物。
姥鲨最长可达12米,最重可达6吨,它们的大型背鳍使它们在水面游动时容易被发现。它们有一个球状的鼻子,头部几乎被鳃裂环绕。姥鲨通过缓慢游动并张开大嘴摄食,将浮游动物捕捉在鳃耙中。一只姥鲨每小时可以过滤约2000吨海水中的食物。它们广泛分布于全球温带地区。
姥鲨曾被过度捕猎到濒临灭绝的地步。尽管已对它们实施了保护措施,但它们仍可能会被误捞或因被渔具缠住而受伤。此外,它们还面临着被船只撞死的危险。
购买选项
定价:79.00元
书号:978-7-111-78025-0
出版社:机械工业出版社