湖仓架构:大规模数据平台的设计和实现
湖仓架构:大规模数据平台的设计和实现
Gaurav Ashok Thalpati
王磊 译
出版时间:2025年09月
页数:219
“我曾与Gaurav并肩参与湖仓架构的实施工作,如今看到他的知识将能为全球的数据从业者提供指导,我感到非常激动。”
——Bruno Ascencio
阿布扎比第一银行(FAB)数据转型与创新主管
“对于即将踏上数据现代化之旅的人来说,这是一本必读之作。”
——Anand M. Devani
Cognizant首席架构师、数据布道者

这本简明扼要且内容全面的指南阐述了如何采用数据湖仓架构来构建现代数据平台,探讨了实施湖仓平台时的设计考量、面临的挑战以及最佳实践。本书深入剖析了采用湖仓架构对数据平台产生的多方面影响,包括结构化数据和非结构化数据的管理、对商业智能(BI)及人工智能/机器学习(AI/ML)应用场景的支持,以及如何实现更严格的数据治理和安全措施。
通过学习本书,你将能够:
● 理解湖仓的关键概念和特性,如ACID事务支持、时间旅行和模式演进。
● 明晰传统数据架构与湖仓数据架构之间的差异。
● 区分各种开放文件格式和开放表格式。
● 设计能够支持数据摄取、存储、计算、元数据管理和数据消费的湖仓平台。
● 评估各类技术,并为你的具体用例选择最合适的技术栈来实施湖仓架构。
● 做出关键的设计决策,应对实际挑战,从而构建能适应现实需求且面向未来的数据平台。
● 开启你的湖仓实施之旅,并将数据从现有系统迁移至湖仓。
  1. 前言
  2. 第1章 湖仓架构简介
  3. 1.1 理解数据架构
  4. 1.1.1 什么是数据架构
  5. 1.1.2 数据架构如何帮助构建数据平台
  6. 1.1.3 数据平台的核心组件
  7. 1.2 为什么需要一个新的数据架构
  8. 1.3 湖仓架构:一种新的模式
  9. 1.3.1 湖仓:博采众长
  10. 1.3.2 理解湖仓架构
  11. 1.3.3 湖仓架构的特征
  12. 1.3.4 湖仓架构的优势
  13. 1.4 关键要点
  14. 1.5 参考
  15. 第2章 传统架构与现代数据平台
  16. 2.1 传统架构:数据仓库与数据湖
  17. 2.1.1 数据仓库基础
  18. 2.1.2 数据湖基础
  19. 2.2 现代数据平台
  20. 2.2.1 在云端寻找答案
  21. 2.2.2 独立方式
  22. 2.2.3 组合方式
  23. 2.2.4 现代数据平台的期望
  24. 2.3 比较:数据仓库、数据湖、湖仓
  25. 2.3.1 能力与局限性
  26. 2.3.2 实施活动
  27. 2.3.3 管理与运营
  28. 2.3.4 业务成果
  29. 2.4 湖仓架构:是未来数据平台的默认选择吗
  30. 2.5 关键要点
  31. 2.6 参考
  32. 第3章 存储:湖仓架构的核心
  33. 3.1 湖仓存储:关键概念
  34. 3.1.1 行式存储与列式存储
  35. 3.1.2 基于存储的性能优化
  36. 3.2 湖仓存储组件
  37. 3.2.1 云对象存储
  38. 3.2.2 文件格式
  39. 3.2.3 表格式
  40. 3.3 关键设计考虑因素
  41. 3.3.1 生态系统支持
  42. 3.3.2 社区支持
  43. 3.3.3 支持的文件格式
  44. 3.3.4 支持的计算引擎
  45. 3.3.5 支持的特性
  46. 3.3.6 商业产品支持
  47. 3.3.7 当前版本和未来版本
  48. 3.3.8 性能基准测试
  49. 3.3.9 比较
  50. 3.3.10 共享特征
  51. 3.4 关键要点
  52. 3.5 参考
  53. 第4章 数据目录
  54. 4.1 理解元数据
  55. 4.1.1 技术元数据
  56. 4.1.2 业务元数据
  57. 4.2 元存储与数据目录的协同工作方式
  58. 4.3 数据目录的特性
  59. 4.3.1 搜索、探索与发现数据
  60. 4.3.2 数据分类
  61. 4.3.3 数据治理与安全
  62. 4.3.4 数据血缘
  63. 4.4 统一数据目录
  64. 4.4.1 竖井式元数据管理的挑战
  65. 4.4.2 什么是统一数据目录
  66. 4.4.3 统一数据目录的优势
  67. 4.5 实施数据目录:关键设计考虑因素与选项
  68. 4.5.1 使用HMS
  69. 4.5.2 使用AWS服务
  70. 4.5.3 使用Azure服务
  71. 4.5.4 使用GCP服务
  72. 4.5.5 使用Databricks
  73. 4.6 关键要点
  74. 4.7 参考
  75. 第5章 湖仓架构的计算引擎
  76. 5.1 湖仓架构的数据计算优势
  77. 5.1.1 独立扩展
  78. 5.1.2 跨区域、跨账户访问
  79. 5.1.3 统一的批处理和实时处理
  80. 5.1.4 增强的BI性能
  81. 5.1.5 选择不同引擎类型的自由
  82. 5.1.6 跨区域分析
  83. 5.2 湖仓平台的计算引擎选项
  84. 5.2.1 开源工具
  85. 5.2.2 云服务
  86. 5.2.3 第三方平台
  87. 5.3 关键设计考虑因素
  88. 5.3.1 开放表格式支持
  89. 5.3.2 支持的版本和特性
  90. 5.3.3 生态系统支持
  91. 5.3.4 基于人物角色的偏好
  92. 5.3.5 托管开源、云原生与第三方产品
  93. 5.3.6 数据消费类工作负载
  94. 5.4 关键要点
  95. 5.5 参考
  96. 第6章 湖仓架构中的数据(与AI)治理和安全
  97. 6.1 什么是数据治理和数据安全
  98. 6.2 数据治理和数据安全的优势
  99. 6.3 湖仓架构中的统一治理和安全
  100. 6.4 湖仓架构中的治理和安全流程
  101. 6.4.1 元数据管理
  102. 6.4.2 合规和法规
  103. 6.4.3 数据与机器学习模型质量
  104. 6.4.4 贯穿数据资产和AI资产的血缘
  105. 6.4.5 数据资产与AI资产共享
  106. 6.4.6 数据所有权
  107. 6.4.7 审计和监控
  108. 6.4.8 访问管理
  109. 6.4.9 数据保护
  110. 6.4.10 处理敏感数据
  111. 6.5 你的角色是什么
  112. 6.6 关键要点
  113. 6.7 参考
  114. 第7章 全景视图:设计与实施湖仓平台
  115. 7.1 设计前的活动
  116. 7.1.1 理解平台需求
  117. 7.1.2 研究现有系统
  118. 7.1.3 理解组织的愿景与数据战略
  119. 7.1.4 组织研讨会和访谈
  120. 7.2 选择合适的架构
  121. 7.3 建立指导原则
  122. 7.3.1 数据生态系统
  123. 7.3.2 可扩展性和性能
  124. 7.3.3 成本控制和优化
  125. 7.3.4 平台运营
  126. 7.3.5 治理和安全
  127. 7.4 设计考虑因素与实施最佳实践
  128. 7.4.1 架构蓝图
  129. 7.4.2 数据摄取
  130. 7.4.3 数据存储
  131. 7.4.4 数据处理
  132. 7.4.5 数据消费和交付
  133. 7.4.6 通用服务
  134. 7.5 设计参考
  135. 7.5.1 分步设计指南
  136. 7.5.2 设计问卷
  137. 7.6 关键要点
  138. 7.7 参考
  139. 第8章 现实世界中的湖仓
  140. 8.1 交付一个现实世界的湖仓
  141. 8.2 估算与规划阶段
  142. 8.2.1 估算
  143. 8.2.2 规划
  144. 8.3 分析与设计阶段
  145. 8.3.1 分析现有系统
  146. 8.3.2 数据建模
  147. 8.3.3 确定技术栈
  148. 8.4 实施与测试阶段
  149. 8.4.1 历史数据迁移
  150. 8.4.2 数据核对与测试
  151. 8.4.3 逆向工程
  152. 8.4.4 数据质量和敏感数据处理
  153. 8.5 支持与维护阶段
  154. 8.5.1 审计与跟踪
  155. 8.5.2 灾难恢复策略
  156. 8.5.3 旧系统下线
  157. 8.6 交付参考
  158. 8.6.1 项目交付成果
  159. 8.6.2 参考架构
  160. 8.7 关键要点
  161. 8.8 参考
  162. 第9章 未来的湖仓
  163. 9.1 从仓库到湖仓:接下来是什么
  164. 9.1.1 数据网格
  165. 9.1.2 HTAP
  166. 9.1.3 零ETL
  167. 9.2 互操作性与新格式
  168. 9.2.1 UniForm
  169. 9.2.2 Apache XTable
  170. 9.2.3 即将推出的文件格式和表格式
  171. 9.3 公有云和私有云的托管平台
  172. 9.3.1 Microsoft Fabric和其他平台
  173. 9.3.2 私有云平台的托管湖仓架构
  174. 9.4 湖仓中的AI
  175. 9.5 关键要点
  176. 9.6 本书总结
  177. 9.7 参考
书名:湖仓架构:大规模数据平台的设计和实现
译者:王磊 译
国内出版社:机械工业出版社
出版时间:2025年09月
页数:219
书号:978-7-111-78900-0
原版书书名:Practical Lakehouse Architecture
原版书出版商:O'Reilly Media
Gaurav Ashok Thalpati
 
Gaurav Ashok Thalpati是一名独立顾问,专注于云数据架构和数据管理领域。在20多年的从业经历中,他曾担任过数据架构师、数据分析师、数据工程师等多个职位。
 
 
本书封面上的动物是栗斑翠鸟(Todiramphus australasia),这是一种热带鸟类,仅分布于印度尼西亚和东帝汶,栖息地位于澳大利亚北部的小巽他群岛。
这只色彩缤纷的翠鸟拥有蓝绿相间的背部,与它沙褐色的腹部和肉桂色条纹的眉毛形成鲜明对比。一道宽阔的黑线横贯眼部,头顶则覆盖着一顶深色的“帽子”。幼鸟的羽色较为暗淡,喙尖还带有一抹白色。
栗斑翠鸟是一种食虫性鸟类,其食谱主要包括蚱蜢、蟋蟀、甲虫,甚至小型蜥蜴。它通常栖息于树枝上,静待猎物出现,然后俯冲而下,在半空中捕获目标。
这些翠鸟是具有领地意识的鸟类,通常成对生活。与其他巢鸟类不同,它们会在白蚁丘或松软的河岸上挖掘巢穴。
栗斑翠鸟在国际自然保护联盟(IUCN)红色名录中被列为近危物种,这意味着由于种群数量持续下降和栖息地流失的威胁,该物种已接近被列入受威胁类别。
购买选项
定价:99.00元
书号:978-7-111-78900-0
出版社:机械工业出版社