Tableau Prep即学即用
Carl Allchin
卢浩, 陈新, 程杰仁 译
出版时间:2022年08月
页数:435
“对于数据分析师来说,掌控数据准备工作从未如此重要。同时,还要感谢Allchin,让这项工作变得前所未有的简单。”
——Ryan Sleeper
Playfair Data的创始人,《Practical Tableau》和《Innovative Tableau》的作者

在自助式数据准备产品中,Tableau Prep相对来说比较容易使用——只要你知道如何清理和组织你的数据集。来自伦敦信息实验室(The Information Lab)的Carl Allchin,通过一系列的实用课程能让你快速掌握玩转Tableau Prep的方法,其中包括准备、清理、自动化、组织和输出数据集的方法。
这本实用技术指南基于Allchin的热门博客Preppin' Data,它将带你一步一步了解Tableau Prep的基本原理。自助式数据准备可减少完成数据项目所需的时间,并提高你的分析质量。本书将带你探究Tableau Prep是如何帮助你访问数据,并将其转化为有价值的信息的过程。
● 将了解准备数据时需要注意的事项。
● 了解处理数据字段时要使用哪些Tableau Prep函数。
● 分析你的数据集的形态和概貌。
● 对输出数据进行分析,了解Tableau Prep如何使你的工作流程自动化。
● 学习如何使用Tableau Prep函数来清理数据。
● 探索在实际场景中使用Tableau Prep技术的方法。
● 通过管理和记录输出,使他人可以使用你的数据。
  1. 前言
  2. 第1章 为何需要自助式数据准备
  3. 1.1 自助式数据可视化简史
  4. 1.2 获取“正确的数据”
  5. 1.3 自助式数据准备的机会
  6. 1.4 玩转Tableau Prep
  7. 1.5 小结
  8. 第一部分 入门
  9. 第2章 Tableau Prep Builder入门
  10. 2.1 从哪里获得Tableau Prep Builder
  11. 2.2 如何获取Prep Builder的许可
  12. 2.3 Tableau Prep Builder界面
  13. 2.4 数据准备的基本步骤
  14. 2.4.1 输入步骤
  15. 2.4.2 清理步骤
  16. 2.4.3 输出步骤
  17. 2.4.4 保存流程
  18. 2.5 小结
  19. 第3章 数据准备规划
  20. 3.1 阶段1:了解你的数据
  21. 3.2 阶段2:明确目标状态
  22. 3.3 阶段3:确定数据从KYD到预期状态所需的转换
  23. 3.4 阶段4:构建工作流程
  24. 3.5 小结
  25. 第4章 塑造数据
  26. 4.1 在输入的数据集中寻找什么
  27. 4.2 什么数据形态最适合在Tableau中进行分析
  28. 4.3 改变Prep Builder中的数据集结构
  29. 4.3.1 Pivot(转换)
  30. 4.3.2 Aggregate(汇总)
  31. 4.3.3 Join(连接)
  32. 4.3.4 Union(联合)
  33. 4.4 将数据重组技术应用于冰淇淋味的香皂案例
  34. 4.4.1 步骤1:将列数据转换为行数据
  35. 4.4.2 步骤2:将行数据转换为列数据
  36. 4.5 小结
  37. 第5章 连接文件中的数据
  38. 5.1 基于文件之上的文件
  39. 5.1.1 电子表格
  40. 5.1.2 其他文件类型
  41. 5.2 在哪里可以找到你的数据文件
  42. 5.3 如何在Prep中连接到文件
  43. 5.4 使用文件输入保存流程的注意事项
  44. 5.5 小结
  45. 第6章 连接到数据库
  46. 6.1 什么是数据库
  47. 6.2 如何在Prep Builder中连接到数据库
  48. 6.3 何时应避免连接到数据库
  49. 6.4 小结
  50. 第二部分 数据类型
  51. 第7章 处理数字
  52. 7.1 我们的数字意味着什么
  53. 7.2 数字的类型
  54. 7.3 用作类别还是度量
  55. 7.4 汇总
  56. 7.5 数字的格式化
  57. 7.6 控制数值数据的函数
  58. 7.7 小结
  59. 第8章 处理日期问题
  60. 8.1 为什么日期很重要?
  61. 8.2 日期的各个部分
  62. 8.3 日期查询表
  63. 8.4 新纪元日期
  64. 8.5 Excel序号
  65. 8.6 输入日期
  66. 8.6.1 makedate()函数
  67. 8.6.2 dateparse()函数
  68. 8.7 小结
  69. 第9章 处理字符串数据
  70. 9.1 字符串意味着什么
  71. 9.2 字符串数据有何不同
  72. 9.2.1 字符顺序
  73. 9.2.2 字符串格式化注意事项
  74. 9.3 常用于字符串数据准备的函数
  75. 9.4 使用字符串数据的分组和替换选项
  76. 9.5 小结
  77. 第10章 处理布尔数据
  78. 10.1 什么是布尔数据
  79. 10.1.1 为什么它在数据分析中如此有用
  80. 10.1.2 具有布尔逻辑的函数
  81. 10.2 小结
  82. 第三部分 数据的形态
  83. 第11章 数据概要分析
  84. 11.1 什么是数据概况
  85. 11.2 为什么可视化数据集很重要
  86. 11.2.1 安斯库姆四要素
  87. 11.2.2 可视化与数据表
  88. 11.3 Prep Builder如何配置文件数据
  89. 11.3.1 生成直方图和迷你直方图
  90. 11.3.2 选择概要或详细视图
  91. 11.3.3 突出显示数值
  92. 11.3.4 查看维度计数
  93. 11.4 排序
  94. 11.5 小结
  95. 第12章 数据集采样
  96. 12.1 一个简单的规则:如果可能,全部使用
  97. 12.2 绕过技术限制的数据采样
  98. 12.2.1 数据规模
  99. 12.2.2 数据速度
  100. 12.3 需要采样的其他理由
  101. 12.3.1 缩短建设时间
  102. 12.3.2 确定你需要什么
  103. 12.4 采样技术
  104. 12.4.1 固定行数
  105. 12.4.2 随机采样
  106. 12.5 何时不要采样
  107. 12.6 小结
  108. 第13章 将列转为行
  109. 13.1 何时在Tableau Prep Builder中进行数据转换
  110. 13.2 如何将列转为行
  111. 13.3 小结
  112. 第14章 将行转为列
  113. 14.1 何时使用行到列的数据转换
  114. 14.2 如何将行转为列
  115. 14.3 小结
  116. 第15章 Prep Builder中的汇总功能
  117. 15.1 比较Prep Builder和Desktop中的计算方法
  118. 15.2 Prep Builder中的哪些计算方式不同
  119. 15.3 添加汇总的步骤
  120. 15.4 剩下的数据在哪里
  121. 15.5 详细程度计算选项
  122. 15.6 小结
  123. 第16章 将数据集连接到一起
  124. 16.1 如何在Prep Builder中连接数据集
  125. 16.2 加入逻辑与术语
  126. 16.3 Prep Builder中的连接类型
  127. 16.4 何时使用每种连接类型
  128. 16.5 小结
  129. 第17章 联合数据
  130. 17.1 什么是union(联合)
  131. 17.2 如果数据结构不一样怎么办
  132. 17.3 何时联合数据
  133. 17.3.1 月度数据集
  134. 17.3.2 来自网络资源的数据集
  135. 17.3.3 公司合并
  136. 17.4 多表和通配符联合
  137. 17.5 小结
  138. 第18章 计算
  139. 18.1 计算在数据准备中的作用是什么
  140. 18.2 创建一个计算字段
  141. 18.3 计算的基础知识
  142. 18.3.1 参考列表
  143. 18.3.2 语法
  144. 18.3.3 描述
  145. 18.3.4 示例
  146. 18.4 建立计算
  147. 18.4.1 当计算顺利进行时
  148. 18.4.2 当计算出现问题时
  149. 18.4.3 编辑计算字段
  150. 18.4.4 建议
  151. 18.5 计算的类型
  152. 18.5.1 数值计算
  153. 18.5.2 字符串计算
  154. 18.5.3 日期计算
  155. 18.5.4 带有布尔输出的条件计算
  156. 18.5.5 逻辑运算
  157. 18.5.6 类型转换
  158. 18.6 详细程度和排名计算
  159. 18.7 小结
  160. 第四部分 输出
  161. 第19章 选择输出
  162. 19.1 输出类型
  163. 19.1.1 发布到文件
  164. 19.1.2 发布到Tableau服务器
  165. 19.2 何时在Prep Builder中输出数据
  166. 19.2.1 在输出步骤中输出数据
  167. 19.2.2 在Tableau Desktop上预览输出数据
  168. 19.3 输出数据时的其他考虑
  169. 19.4 小结
  170. 第20章 输出到数据库
  171. 20.1 何时向数据库写入数据
  172. 20.1.1 清理数据
  173. 20.1.2 简化的数据连接
  174. 20.1.3 阶段表和参考表
  175. 20.2 写入数据库的设置
  176. 20.3 需要注意的问题
  177. 20.4 小结
  178. 第21章 Tableau Prep Conductor入门
  179. 21.1 何时使用Tableau Prep Conductor
  180. 21.2 如何获得Prep Conductor
  181. 21.3 加载一个流程到Prep Conductor
  182. 21.4 使用Prep Conductor的其他好处
  183. 21.5 小结
  184. 第五部分 清理数据
  185. 第22章 创建附加数据
  186. 22.1 何时不要去创建数据
  187. 22.1.1 Tableau Desktop中的动态计算
  188. 22.1.2 数据连接中的重复记录
  189. 22.2 创建附加的列
  190. 22.2.1 使用计算
  191. 22.2.2 将行转为列
  192. 22.2.3 连接数据集
  193. 22.3 创建附加行
  194. 22.3.1 将列转为行
  195. 22.3.2 数据集联合
  196. 22.3.3 数据集支撑
  197. 22.3.4 连接数据集
  198. 22.4 小结
  199. 第23章 过滤
  200. 23.1 什么是过滤器
  201. 23.2 不同类型的过滤器
  202. 23.2.1 选择过滤
  203. 23.2.2 计算过滤
  204. 23.2.3 通配符过滤
  205. 23.2.4 空值过滤
  206. 23.3 何时过滤掉列
  207. 23.4 何时过滤掉行
  208. 23.5 小结
  209. 第24章 在输入过程中删除数据
  210. 24.1 在加载数据集之前对其进行更改
  211. 24.2 性能慢、生成慢、输出慢
  212. 24.3 删除数据列
  213. 24.4 删除记录
  214. 24.5 小结
  215. 第25章 拆分数据字段
  216. 25.1 基本分割
  217. 25.2 高级拆分:当自动拆分不能如期进行的时候
  218. 25.3 什么时候不要拆分数据
  219. 25.3.1 地址数据
  220. 25.3.2 没有明确的定界符
  221. 25.4 小结
  222. 第26章 基于分组的数据清理
  223. 26.1 什么是分组
  224. 26.2 为什么使用分组
  225. 26.2.1 提高准确率
  226. 26.2.2 数据层次结构导向
  227. 26.2.3 平滑机构重组
  228. 26.3 分组技术
  229. 26.3.1 手动分组
  230. 26.3.2 计算
  231. 26.3.3 内置函数
  232. 26.4 小结
  233. 第27章 空值处理
  234. 27.1 什么是空值
  235. 27.2 什么时候可以接受空值
  236. 27.3 如何删除或替换空值
  237. 27.3.1 ISNULL()函数
  238. 27.3.2 ZN()函数
  239. 27.3.3 合并操作
  240. 27.4 小结
  241. 第28章 使用数据角色
  242. 28.1 如何使用数据角色
  243. 28.2 自定义数据角色
  244. 28.3 小结
  245. 第29章 处理多余字符
  246. 29.1 什么是多余的字符
  247. 29.2 多余字符引起的问题
  248. 29.3 去除多余字符
  249. 29.3.1 含有错别字的字符串
  250. 29.3.2 带有多余字符的数字
  251. 29.3 3 有错别字的日期
  252. 29.4 小结
  253. 第30章 去除重复数据
  254. 30.1 如何识别重复的数据
  255. 30.2 重复的原因
  256. 30.2.1 系统加载
  257. 30.2.2 每项度量的行
  258. 30.2.3 连接
  259. 30.3 如何处理重复数据
  260. 30.3.1 汇总:技巧1
  261. 30.3.2 汇总:技巧2
  262. 30.3.3 将行转换成列
  263. 30.4 小结
  264. 第31章 使用正则表达式
  265. 31.1 什么是正则表达式
  266. 31.2 如何在Tableau Prep中使用正则表达式
  267. 31.3 REGEXP_EXTRACT()和REGEXP_EXTRACT_NTH()
  268. 31.3.1 REGEXP_MATCH()函数
  269. 31.3.2 REGEXP_REPLACE()函数
  270. 31.4 Regex(正则表达式)应用案例
  271. 31.4.1 替换常见错误
  272. 31.4.2 匿名评论或反馈
  273. 31.5 常用的正则表达式命令
  274. 31.6 小结
  275. 第32章 实现高级连接
  276. 32.1 多连接条件
  277. 32.2 非等价连接条件
  278. 32.2.1 用连接来过滤数据
  279. 32.2.2 区间连接
  280. 32.3 OR语句
  281. 32.4 小结
  282. 第33章 创建LOD计算
  283. 33.1 什么是追加
  284. 33.2 通过LOD计算来研究追加
  285. 33.2.1 何时使用LOD计算
  286. 33.2.2 如何在Prep Builder中编写LOD计算方法
  287. 33.2.3 LOD计算在做什么
  288. 33.3 小结
  289. 第34章 分析计算
  290. 34.1 什么是表计算
  291. 34.2 在Prep Builder中应用表计算逻辑
  292. 34.2.1 关键词
  293. 34.2.2 分析计算
  294. 34.3 应用案例
  295. 34.3.1 筛选前N条记录
  296. 34.3.2 过滤掉一定比例的数据
  297. 34.4 小结
  298. 第六部分 基础知识拓展
  299. 第35章 挑战复杂的数据准备场景
  300. 35.1 挑战
  301. 35.2 从哪里开始
  302. 35.3 逻辑步骤
  303. 35.4 做出改变
  304. 35.5 做好迭代准备
  305. 35.6 小结
  306. 第36章 处理自由文本
  307. 36.1 什么是自由文本
  308. 36.2 为什么自由文本有用
  309. 36.3 如何在Tableau中分析自由文本
  310. 36.3.1 拆分字符串
  311. 36.3.2 将列转为行
  312. 36.3.3 清理大小写和标点符号
  313. 36.3.4 使用连接来删除常见词
  314. 36.3.5 将剩余的值进行分组
  315. 36.4 小结
  316. 第37章 使用更智能的过滤
  317. 37.1 计算
  318. 37.1.1 布尔计算
  319. 37.1.2 逻辑计算
  320. 37.1.3 正则计算
  321. 37.2 区间连接
  322. 37.3 百分比异常
  323. 37.3.1 手动输入:LOD计算
  324. 37.3.2 重新加载的数据:连接到以前的输出
  325. 37.3.3 汇总各类型的平均生产成本
  326. 37.3.4 将数据集连接到一起
  327. 37.4 组合技术运用
  328. 37.5 小结
  329. 第38章 处理兑换率
  330. 38.1 兑换率问题
  331. 38.2 在Tableau Prep中应用兑换率
  332. 38.2.1 第1步:为转换创建一致的数据粒度
  333. 38.2.2 第2步:将数据集连接在一起
  334. 38.2.3 第3步:应用兑换率
  335. 38.3 兑换率的长期策略
  336. 38.3.1 频率管理
  337. 38.3.2 维护历史表
  338. 38.4 小结
  339. 第39章 支撑你的数据
  340. 39.1 什么是支撑
  341. 39.2 数据支撑所解决的问题
  342. 39.3 数据支撑带来的挑战
  343. 39.4 传统的数据支撑技术
  344. 39.4.1 第1步:输入数据集
  345. 39.4.2 第2步:建立连接计算
  346. 39.4.3 第3步:将两个数据集连接在一起
  347. 39.4.4 第4步:过滤掉不需要的行
  348. 39.5 新数据支撑技术
  349. 39.5.1 第1步:输入数据集
  350. 39.5.2 第2步:连接数据集
  351. 39.5.3第3步:添加报告日期
  352. 39.5.4第4步:移除支撑值
  353. 39.6 结果
  354. 39.7 小结
  355. 第40章 连接编程脚本
  356. 40.1 何时使用Prep中的脚本步骤
  357. 40.2 在Prep中设置计算机以使用脚本
  358. 40.3 使用脚本步骤
  359. 40.4 小结
  360. 第41章 处理Prep Builder错误
  361. 41.1 参数错误
  362. 41.2 空白的概况窗格或数据窗格
  363. 41.2.1 更改计算或删除下游的数据字段
  364. 41.2.2 数据源已发生改变
  365. 41.3 计算字段内的错误
  366. 41.3.1 不完整的计算
  367. 41.3.2 不支持的函数
  368. 41.4 小结
  369. 第七部分 管理你的数据
  370. 第42章 数据准备的文档记录
  371. 42.1 基本的文档
  372. 42.1.1 文件夹结构
  373. 42.1.2 文件名
  374. 42.1.3 数据源
  375. 42.1.4 输出
  376. 42.2 步骤名称
  377. 42.3 清理步骤
  378. 42.4 步骤描述
  379. 42.5 颜色
  380. 42.6 连接
  381. 42.7 联合
  382. 42.8 小结
  383. 第43章 决定在何处准备数据
  384. 43.1 需要考虑的过程
  385. 43.2 数据准备vs可视化分析
  386. 43.2.1 数据素养
  387. 43.2.2组织规模
  388. 43.2.3 技术硬件的质量
  389. 43.2.4数据投资的历史状况
  390. 43.3 软件性能
  391. 43.3.1 采样
  392. 43.3.2 功能性
  393. 43.3.3 文档
  394. 43.4 小结
  395. 第44章 管理数据
  396. 44.1 什么是敏感数据
  397. 44.1.1 公开
  398. 44.1.2 秘密
  399. 44.1.3 机密
  400. 44.1.4 受限
  401. 44.2 基于敏感度管理数据
  402. 44.3 生产环境与开发环境
  403. 44.4 删除数据
  404. 44.4.1 当数据变得过时或不相关时
  405. 44.4.2 当客户或顾客离开时
  406. 44.5 小结
  407. 第45章 存储数据
  408. 45.1 不可访问
  409. 45.1.1 不要犯法
  410. 45.1.2 不要删除业务数据
  411. 45.1.3 将数据的访问权授予专家
  412. 45.1.4 记录你的资料来源
  413. 45.2 缓慢/无响应的性能
  414. 45.3 覆盖写入风险
  415. 45.3.1 授予只读访问权
  416. 45.3.2 发布前的培训
  417. 45.4 输出要写到哪里
  418. 45.5 小结
  419. 第46章 在数据中使用标识符和键
  420. 46.1 什么是标识符
  421. 46.2 什么是数据库中的Key(键)
  422. 46.3 在Tableau Prep中使用键和标识符
  423. 46.4 在Prep Builder中创建标识符数据字段
  424. 46.5 小结
  425. 第47章 保持数据更新
  426. 47.1 刷新数据
  427. 47.2 完全刷新vs增量刷新
  428. 47.3 设置不同类型的刷新
  429. 47.3.1 Full Refresh(完全刷新)
  430. 47.3.2 Incremental Refresh(增量刷新)
  431. 47.4 刷新数据源时的注意事项
  432. 47.4.1 更改数据值
  433. 47.4.2 改变数据源的结构
  434. 47.4.3 新数据,新输入
  435. 47.5 小结
  436. 第48章 使用历史表
  437. 48.1 为什么需要历史表
  438. 48.2 创建历史表时需要考虑的问题
  439. 48.2.1 连接到实时数据的能力
  440. 48.2.2 信息的相关性
  441. 48.2.3 更新频率
  442. 48.2.4 粒度级别
  443. 48.3 性能
  444. 48.4 数据法规
  445. 48.5 历史表示例
  446. 48.6 小结
  447. 第49章 评估是否完全需要Prep Builder
  448. 49.1 Tableau数据准备历史
  449. 49.2 何时先试试Tableau Desktop
  450. 49.2.1 简单数据连接
  451. 49.2.2 数据联合
  452. 49.2.3 单个转换
  453. 49.3 何时使用Prep Builder
  454. 49.4 小结
  455. 第50章 最后的思考
书名:Tableau Prep即学即用
作者:Carl Allchin
译者:卢浩, 陈新, 程杰仁 译
国内出版社:中国电力出版社
出版时间:2022年08月
页数:435
书号:978-7-5198-6443-9
原版书书名:Tableau Prep: Up & Running
原版书出版商:O'Reilly Media
Carl Allchin
 
Carl Allchin是Tableau大师,多次担任Tableau大使,也是伦敦The Data School全球领先的数据分析培训项目的“另一位主教练”。他在金融服务领域担任商业智能分析师和经理超过十年,通过咨询、博客教授市场领先的数据解决方案,为数百家公司提供支持。Carl是Preppin’ Data的联合创始人,Preppin’ Data是唯一一个提供Tableau和其他数据工具每周数据准备挑战的栏目。
 
 
本书封面上的动物是一只Quokka(短尾矮袋鼠,学名Setonix brachyurus)。Quokka是一种小型有袋类动物,发现于澳大利亚西南部和附近的岛屿。
这些小袋鼠的毛发呈粗褐色,腹部毛色较浅,大小与家猫差不多。Quokka有黑色的鼻子,相对较短的手臂和尾巴,还有一个袋子,在里面装着它们的幼崽。圆圆的耳朵及和善的面孔使它们成为受欢迎的摄影对象。雄性Quokka通常比雌性稍大,Quokka幼崽约一年后变得成熟。Quokka是夜行性的,且大部分在夜间觅食。它们在不同季节吃各种植物,包括多肉植物、灌木、草和水果。Quokka通常一年四季都呆在同一个地方。Quokkas吞下它们的食物后会反刍和咀嚼。
从欧洲引进的新的掠食者(特别是红狐和家养的狗和猫),以及栖息地的破坏和气候变化已导致Quokka的数量下降。然而,最近的环境保护工作旨在保护Quokkas的自然栖息地,进一步的研究有助于促进适当的植被生长,以帮助维持更多的种群。不过,目前Quokka的保护状态仍然是“易受伤害”。O’Reilly封面上的许多动物都是濒临灭绝的,它们对世界都很重要。
购买选项
定价:128.00元
书号:978-7-5198-6443-9
出版社:中国电力出版社