《初识数据科学》—

初识数据科学

Sam Lau, Joseph Gonzalez, Deborah Nolan 著

门佳译

出版时间：2026年03月

页数：563

“我真希望在第一次用‘数据科学家’这个词来描述做我们所做工作的人时能有这本书。如果你想从事数据科学/工程、AI或机器学习，这本书就是你的起点。”
——DJ Patil博士
美国第一位首席数据科学家

作为一名有抱负的数据科学家，你理解为什么组织机构的重要决策都依赖于数据 —— 无论是设计网站的公司、决定如何改善服务的城市，还是致力于阻止疾病传播的科学家组织。你需要具备将一堆杂乱的数据提炼成可操作的洞见所需的技能。我们称之为数据科学生命周期：收集、整理、分析数据并从中得出结论的过程。
本书是第一本兼顾编程和统计学基础技能的书籍，内容涵盖了整个数据科学生命周期。它面向那些希望成为数据科学家或与数据科学家合作的读者，以及希望跨越“技术/非技术”界限的数据分析师。如果具备基本的Python编程知识，你将学到如何使用像pandas这样的行业标准工具来处理数据。
● 将感兴趣的问题提炼为可通过数据研究的问题
● 进行数据收集可能涉及的文本处理、Web抓取等技术
● 通过数据清洗、探索和可视化获得有价值的洞见
● 学习如何使用建模来描述数据
● 将研究结果推广到数据之外

目录
产品信息
关于作者
封面介绍

前言
第一部分数据科学生命周期
第1章何为数据科学生命周期？
1.1 生命周期的各个阶段
1.2 生命周期实例
1.3 小结
第2章数据与数据范围
2.1 大数据和新机遇
示例：Google流感趋势
2.2 目标总体、接触框架、样本
2.2.1 示例：是什么让在线社区成员变得活跃？
2.2.2 示例：谁会赢得选举？
2.2.3 示例：环境危害如何影响个人健康？
2.3 工具与方案
2.4 测量自然现象
示例：空气中的CO2浓度是多少？
2.5 准确性
2.5.1 偏差类型
2.5.2 变异类型
2.6 小结
第3章模拟与数据设计
3.1 瓮模型
3.1.1 抽样设计
3.1.2 统计量的抽样分布
3.1.3 模拟抽样分布
3.1.4 超几何分布模拟
3.2 示例：模拟选举投票的偏差和方差
3.2.1 宾夕法尼亚州的瓮模型
3.2.2 带有偏差的瓮模型
3.2.3 开展更大规模的民调
3.3 示例：模拟疫苗的随机化试验
3.3.1 数据范围
3.3.2 随机分配的瓮模型
3.4 示例：测量空气质量
3.5 小结
第4章使用汇总统计量建模
4.1 常数模型
4.2 损失最小化
4.2.1 平均绝对误差
4.2.2 均方误差
4.2.3 选择损失函数
4.3 小结
第5章案例研究：为什么我的公交车总是晚点？
5.1 问题与范围
5.2 数据整理
5.3 分析公交车时间
5.4 候车时间建模
5.5 小结
第二部分表格型数据
第6章使用pandas处理DataFrame
6.1 子集
6.1.1 数据范围和问题
6.1.2 DataFrame和索引
6.1.3 切片
6.1.4 过滤行
6.1.5 示例：Luna这个名字是什么时候流行起来的？
6.2 聚合
6.2.1 基本分组聚合
6.2.2 多列分组
6.2.3 自定义聚合函数
6.2.4 透视
6.3 连接
6.3.1 内连接
6.3.2 左连接、右连接和外连接
6.3.3 示例：婴儿名字类别的流行度变化
6.4 数据变换
6.4.1 .apply()方法
6.4.2 示例：“L”开头名字的流行度
6.4.3 .apply()的代价
6.5 DataFrame与其他数据表示方式有何不同？
6.5.1 DataFrame与电子表格
6.5.2 DataFrame与矩阵
6.5.3 DataFrame与关系表
6.6 小结
第7章使用SQL处理关系表
7.1 子集
7.1.1 SQL基础：SELECT与FROM
7.1.2 什么是关系表？
7.1.3 切片
7.1.4 过滤行
7.1.5 示例：Luna这个名字最近才开始流行吗？
7.2 聚合
7.2.1 使用GROUP BY进行基本分组聚合
7.2.2 按多列分组
7.2.3 其他聚合函数
7.3 连接
7.3.1 内连接
7.3.2 左连接和右连接
7.3.3 示例：名字类别的流行度
7.4 变换与公用表表达式
7.4.1 SQL 函数
7.4.2 使用WITH子句进行多步骤查询
7.4.3 示例：“L”开头名字的流行度
7.5 小结
第三部分理解数据
第8章文件整理
8.1 数据源示例
8.1.1 药物滥用预警网络（DAWN）调查
8.1.2 旧金山餐馆食品安全
8.2 文件格式
8.2.1 分隔格式
8.2.2 固定宽度格式
8.2.3 层级结构格式
8.2.4 松散格式文本
8.3 文件编码
8.4 文件大小
8.5 shell与命令行工具
8.6 数据表的结构和粒度
8.6.1 inspections和violations的粒度
8.6.2 DAWN调查数据的结构和粒度
8.7 小结
第9章 DataFrame整理
9.1 示例：整理来自莫纳罗亚天文台的CO2测量数据
9.1.1 质量检查
9.1.2 处理缺失数据
9.1.3 重塑数据表
9.2 质量检查
9.2.1 基于范围的质量
9.2.2 测量值和记录值的质量
9.2.3 跨特征的质量检查
9.2.4 用于分析的数据质量
9.2.5 修复数据与否
9.3 缺失的值与记录
9.4 变换与时间戳
9.4.1 时间戳变换
9.4.2 使用管道处理变换
9.5 修改结构
9.6 示例：整理餐馆安全违规记录
9.6.1 缩小关注点
9.6.2 聚合违规行为
9.6.3 从违规描述中提取信息
9.7 小结
第10章探索性数据分析
10.1 特征类型
10.1.1 示例：犬种
10.1.2 定性特征变换
10.1.3 特征类型的重要性
10.2 数据分布分析要点
10.3 特征关系分析要点
10.3.1 两个定量特征
10.3.2 一个定性特征和一个定量特征
10.3.3 两个定性特征
10.4 多变量环境中的比较
10.5 探索指南
10.6 示例：房屋售价
10.6.1 理解价格
10.6.2 接下来怎样？
10.6.3 研究其他特征
10.6.4 深入了解关系
10.6.5 固定地理位置
10.7 EDA分析结果
10.8 小结
第11章数据可视化
11.1 选择合适的尺度揭示数据结构
11.1.1 填充数据区域
11.1.2 何时包含0
11.1.3 通过变换揭示数据形态
11.1.4 通过倾斜校正揭示关系
11.1.5 通过拉直揭示关系
11.2 数据平滑与聚合
11.2.1 通过平滑技术揭示分布形态
11.2.2 通过平滑技术揭示关系与趋势
11.2.3 平滑技术需要调优
11.2.4 基于分位数简化分布
11.2.5 何时不宜进行平滑处理
11.3 促进有意义的比较
11.3.1 突出关键差异
11.3.2 组的排序
11.3.3 避免堆叠
11.3.4 选择配色方案
11.3.5 图表比较指南
11.4 整合数据设计
11.4.1 随时间收集的数据
11.4.2 观测性研究
11.4.3 不均等抽样
11.4.4 地理数据
11.5 添加背景信息
示例：100米短跑成绩
11.6 使用plotly绘制图表
11.6.1 Figure与Trace对象
11.6.2 修改布局
11.6.3 常见绘图方法
11.6.4 添加标注
11.7 其他可视化工具
11.7.1 matplotlib
11.7.2 图形语法
11.8 小结
第12章空气质量测量的准确性如何？
12.1 问题、数据设计与范围
12.2 寻找共址传感器
12.2.1 整理AQS站点列表
12.2.2 整理PurpleAir站点列表
12.2.3 匹配AQS和PurpleAir传感器
12.3 整理和清洗AQS传感器数据
12.3.1 检查数据粒度
12.3.2 删除不需要的列
12.3.3 检查日期的有效性
12.3.4 检查PM2.5测量值的质量
12.4 整理PurpleAir传感器数据
12.4.1 检查数据粒度
12.4.2 处理缺失值
12.5 研究PurpleAir和AQS的测量值
12.6 创建模型，修正PurpleAir测量值
12.7 小结
第四部分其他数据源
第13章处理文本
13.1 文本示例及任务
13.1.1 将文本转换为标准格式
13.1.2 提取部分文本以创建特征
13.1.3 将文本变换为特征
13.1.4 文本分析
13.2 字符串操作
13.2.1 使用Python字符串方法将文本转换为标准格式
13.2.2 pandas 中的字符串方法
13.2.3 分割字符串以提取文本片段
13.3 正则表达式
13.3.1 字面拼接
13.3.2 量词
13.3.3 多选结构与分组
13.3.4 正则表达式参考表
13.4 文本分析
13.5 小结
第14章数据交换
14.1 NetCDF数据
14.2 JSON数据
14.3 HTTP
14.4 REST
14.5 XML、HTML、XPath
14.5.1 示例：从维基百科爬取比赛成绩
14.5.2 XPath
14.5.3 示例：从ECB获取汇率
14.6 小结
第五部分线性建模
第15章线性模型
15.1 简单线性模型
15.2 示例：空气质量的简单线性模型
15.2.1 线性模型的解释
15.2.2 评估拟合效果
15.3 拟合简单线性模型
15.4 多元线性模型
15.5 拟合多元线性模型
15.6 示例：机会之地在哪里？
15.6.1 使用通勤时间解释向上流动性
15.6.2 利用多个变量解释向上流动性
15.7 数值测量的特征工程
15.8 分类测量的特征工程
15.9 小结
第16章模型选择
16.1 过拟合
示例：能源消耗
16.2 “训练集一测试集”划分
16.3 交叉验证
16.4 正则化
16.5 模型偏差与方差
16.6 小结
第17章推断和预测理论
17.1 分布：总体、经验、抽样
17.2 假设检验基础
17.2.1 示例：用于比较维基百科贡献者生产力的秩检验
17.2.2 示例：疫苗有效性的比例检验
17.3 使用自助法进行推断
17.4 置信区间基础
17.5 预测区间基础
17.5.1 示例：预测公交车晚点时间
17.5.2 示例：预测螃蟹大小
17.5.3 示例：预测螃蟹的增量增长
17.6 用概率进行推断与预测
17.6.1 平均秩统计量理论的形式化
17.6.2 随机变量的一般性质
17.6.3 检验与区间的概率基础
17.6.4 模型选择背后的概率
17.7 小结
第18章案例研究：如何给驴称重
18.1 驴研究的问题与范围
18.2 数据整理与转换
18.3 数据探索
18.4 建模驴的体重
18.4.1 麻醉药处方损失函数
18.4.2 拟合简单线性模型
18.4.3 拟合多元线性模型
18.4.4 将定性特征引入模型
18.4.5 模型评估
18.5 小结
第六部分分类
第19章分类示例
19.1 示例：毁于风害的树木
19.2 建模与分类
19.2.1 常数模型
19.2.2 分析树木大小与风倒的关系
19.3 比例（与概率）建模
19.3.1 逻辑模型
19.3.2 对数几率
19.3.3 使用逻辑曲线
19.4 逻辑模型的损失函数
19.5 从概率到分类
19.5.1 混淆矩阵
19.5.2 查准率与查全率
19.6 小结
第20章数值优化
20.1 梯度下降法基础
20.2 最小化Huber损失
20.3 凸函数与可导损失函数
20.4 梯度下降的变体
20.4.1 随机梯度下降
20.4.2 小批量梯度下降
20.4.3 牛顿法
20.5 小结
第21章案例研究：识别假新闻
21.1 研究问题与数据范围
21.2 获取与整理数据
21.3 分析数据
21.3.1 分析发布网站
21.3.2 分析发布时间
21.3.3 分析文章用词
21.4 建模
21.4.1 独词模型
21.4.2 多词模型
21.4.3 使用tf-idf进行预测
21.5 小结
延伸阅读
数据源

书名：初识数据科学

作者：Sam Lau, Joseph Gonzalez, Deborah Nolan 著

译者：门佳译

国内出版社：东南大学出版社

出版时间：2026年03月

页数：563

书号：978-7-5766-1290-5

原版书书名：Learning Data Science

原版书出版商：O'Reilly Media

Sam Lau

Sam Lau是加州大学圣地亚哥分校Halicioglu数据科学研究所的助理教学教授。Sam拥有十年的教学经验，并曾在加州大学伯克利分校和加州大学圣地亚哥分校设计并教授一流的数据科学课程。

查看Sam Lau更多信息

Joseph Gonzalez

Joey Gonzalez是加州大学伯克利分校电子工程与计算机科学系副教授，是伯克利人工智能研究组成员，也是伯克利RISE实验室创始成员。他还共同创立了Turi Inc.和Aqueduct，为数据科学家开发各种工具。

查看Joseph Gonzalez更多信息

Deborah Nolan

Deborah Nolan是加州大学伯克利分校计算机、数据科学和社会学院的统计学名誉教授兼学生事务副院长。

查看Deborah Nolan更多信息

本书封面上的动物是可食用睡鼠（学名：Glis glis）。顾名思义，这种动物确实曾出现在人类的餐桌上。在古罗马时代，烤制食用睡鼠备受青睐，如今在克罗地亚和斯洛文尼亚仍有食用这种动物的习俗。可食睡鼠的体形类似于松鼠：小耳朵、短腿、大脚掌，蓬松的长尾巴。前足四趾，后足五趾，身体大部分覆盖着灰色或灰褐色的毛发，腹部呈白色，足底无毛，能分泌黏性物质辅助攀爬。
这种夜行性动物大部分时间栖息在树上，分布于欧洲以及西亚和中亚的部分地区。虽然国际自然保护联盟（IUCN）将可食用睡鼠列为“无危”物种，但其仍面临非法捕猎和栖息地丧失的威胁。

购买选项

定价：188.00元

书号：978-7-5766-1290-5

出版社：东南大学出版社

联系出版社邮购