新書推薦:
《
股市趋势技术分析(原书第11版)
》
售價:HK$
221.8
《
汉匈战争全史
》
售價:HK$
99.7
《
恶的哲学研究(社会思想丛书)
》
售價:HK$
109.8
《
不止江湖
》
售價:HK$
98.6
《
天才留步!——从文艺复兴到新艺术运动(一本关于艺术天才的鲜活故事集,聚焦艺术史的高光时刻!)
》
售價:HK$
154.6
《
双城史
》
售價:HK$
110.9
《
冯友兰和青年谈心系列:不是问题的问题(哲学大师冯友兰和年轻人谈心,命运解读)
》
售價:HK$
55.8
《
月与蟹(青鲤文库)荣获第144届直木奖,天才推理作家经典作品全新译本。一部青春狂想曲,带你登上心理悬疑之巅。
》
售價:HK$
50.4
|
內容簡介: |
数据科学已经成为从数据中提取价值的基本工具,任何企业都可以将数据收集、存储和处理作为其业务的一部分。本书搭建了一个易于理解的概念框架,帮助读者掌握数据科学的基础知识,并在学习理论的过程中同步使用RapidMiner平台进行实践。书中将分享实用的数据分析方法,讨论如何揭示隐藏的模式和关系,无论你是新手还是专家,都能借助这些方法做出更好的决策和预测。本书非常适合商务用户、数据分析师、商务分析师、工程师和分析专家以及任何与数据打交道的人。
|
關於作者: |
第1章 简介1
1.1 AI、机器学习和数据科学2
1.2 什么是数据科学3
1.2.1 提取有意义的模式3
1.2.2 构建表示模型3
1.2.3 统计、机器学习和计算的结合4
1.2.4 学习算法4
1.2.5 相关领域4赞誉
译者序
序言
前言
致谢
作者简介
第1章 简介1
1.1 AI、机器学习和数据科学2
1.2 什么是数据科学3
1.2.1 提取有意义的模式3
1.2.2 构建表示模型3
1.2.3 统计、机器学习和计算的结合4
1.2.4 学习算法4
1.2.5 相关领域4
1.3 数据科学的案例5
1.3.1 体量5
1.3.2 维度5
1.3.3 复杂问题6
1.4 数据科学的分类6
1.5 数据科学的算法7
1.6 本书路线图8
1.6.1 数据科学入门8
1.6.2 练习使用RapidMiner8
1.6.3 核心算法9
参考文献11
第2章 数据科学过程12
2.1 先验知识13
2.1.1 目标13
2.1.2 主题范围14
2.1.3 数据14
2.1.4 因果关系与相关性15
2.2 数据准备15
2.2.1 数据探索15
2.2.2 数据质量16
2.2.3 缺失值16
2.2.4 数据类型和转换16
2.2.5 转换17
2.2.6 异常值17
2.2.7 特征选择17
2.2.8 数据采样17
2.3 建模18
2.3.1 训练数据集和测试数据集18
2.3.2 学习算法19
2.3.3 模型评估20
2.3.4 集成模型20
2.4 应用21
2.4.1 生产准备21
2.4.2 技术整合21
2.4.3 响应时间21
2.4.4 模型刷新22
2.4.5 同化22
2.5 知识22
参考文献23
第3章 数据探索24
3.1 数据探索的目标24
3.2 数据集25
3.3 描述性统计26
3.3.1 单变量探索27
3.3.2 多变量探索28
3.4 数据可视化30
3.4.1 单变量的可视化31
3.4.2 多变量的可视化34
3.4.3 可视化高维数据38
3.5 数据探索的路线图40
参考文献41
第4章 分类42
4.1 决策树42
4.1.1 工作原理42
4.1.2 实现过程47
4.1.3 小结55
4.2 规则归纳56
4.2.1 工作原理58
4.2.2 实现过程60
4.2.3 小结63
4.3 k-NN(k-近邻)63
4.3.1 工作原理64
4.3.2 实现过程69
4.3.3 小结71
4.4 朴素贝叶斯71
4.4.1 工作原理72
4.4.2 实现过程77
4.4.3 小结79
4.5 人工神经网络80
4.5.1 工作原理82
4.5.2 实现过程84
4.5.3 小结86
4.6 支持向量机87
4.6.1 工作原理89
4.6.2 实现过程91
4.6.3 小结95
4.7 集成学习95
4.7.1 工作原理97
4.7.2 实现过程98
4.7.3 小结105
参考文献105
第5章 回归方法107
5.1 线性回归107
5.1.1 工作原理108
5.1.2 实现过程112
5.1.3 检查点117
5.2 逻辑回归120
5.2.1 工作原理122
5.2.2 实现过程124
5.2.3 总结要点127
5.3 总结127
参考文献127
第6章 关联分析128
6.1 挖掘关联规则129
6.1.1 项集130
6.1.2 规则生成132
6.2 Apriori算法133
6.3 频繁模式增长算法136
6.3.1 工作原理136
6.3.2 实现过程138
6.4 总结141
参考文献141
第7章 聚类142
7.1 k-means聚类145
7.1.1 工作原理147
7.1.2 实现过程149
7.2 DBSCAN聚类153
7.2.1 工作原理153
7.2.2 实现过程155
7.3 自组织映射158
7.3.1 工作原理159
7.3.2 实现过程161
参考文献166
第8章 模型评估168
8.1 混淆矩阵169
8.2 ROC和AUC170
8.3 提升曲线172
8.4 实现过程174
8.5 总结177
参考文献178
第9章 文本挖掘179
9.1 工作原理180
9.1.1 词频–逆文档频率180
9.1.2 词语181
9.2 实现过程184
9.2.1 实现1:关键词聚类184
9.2.2 实现2:预测博客作者的性别187
9.3 总结193
参考文献194
第10章 深度学习195
10.1 AI冬天197
10.1.1 AI冬天:20世纪70年代197
10.1.2 冬季解冻:20世纪80年代198
10.1.3 人工智能的春夏:2006年至今200
10.2 工作原理201
10.2.1 神经网络的回归模型201
10.2.2 梯度下降法202
10.2.3 需要反向传播204
10.2.4 分类超过2个:softmax205
10.2.5 卷积神经网络207
10.2.6 密集层211
10.2.7 随机失活层211
10.2.8 循环神经网络212
10.2.9 自动编码器213
10.2.10 相关AI模型213
10.3 实现过程214
10.4 总结217
参考文献218
第11章 推荐引擎219
11.1 推荐引擎的概念221
11.2 协同过滤225
11.2.1 基于邻域的方法226
11.2.2 矩阵分解233
11.3 基于内容的过滤238
11.3.1 用户画像的计算239
11.3.2 有监督学习方法245
11.4 混合推荐器249
11.5 总结250
参考文献251
第12章 时间序列预测253
12.1 时间序列分解256
12.1.1 经典分解258
12.1.2 实现过程258
12.2 基于平滑的方法260
12.2.1 简单预测方法260
12.2.2 指数平滑261
12.2.3 实现过程263
12.3 基于回归的方法264
12.3.1 回归265
12.3.2 周期性回归266
12.3.3 集成移动平均自回归模型268
12.3.4 周期性ARIMA272
12.4 机器学习方法274
12.4.1 窗口化275
12.4.2 神经网络自回归280
12.
|
目錄:
|
赞誉
译者序
序言
前言
致谢
作者简介
第1章 简介1
1.1 AI、机器学习和数据科学2
1.2 什么是数据科学3
1.2.1 提取有意义的模式3
1.2.2 构建表示模型3
1.2.3 统计、机器学习和计算的结合4
1.2.4 学习算法4
1.2.5 相关领域4
1.3 数据科学的案例5
1.3.1 体量5
1.3.2 维度5
1.3.3 复杂问题6
1.4 数据科学的分类6
1.5 数据科学的算法7
1.6 本书路线图8
1.6.1 数据科学入门8
1.6.2 练习使用RapidMiner8
1.6.3 核心算法9
参考文献11
第2章 数据科学过程12
2.1 先验知识13
2.1.1 目标13
2.1.2 主题范围14
2.1.3 数据14
2.1.4 因果关系与相关性15
2.2 数据准备15
2.2.1 数据探索15
2.2.2 数据质量16
2.2.3 缺失值16
2.2.4 数据类型和转换16
2.2.5 转换17
2.2.6 异常值17
2.2.7 特征选择17
2.2.8 数据采样17
2.3 建模18
2.3.1 训练数据集和测试数据集18
2.3.2 学习算法19
2.3.3 模型评估20
2.3.4 集成模型20
2.4 应用21
2.4.1 生产准备21
2.4.2 技术整合21
2.4.3 响应时间21
2.4.4 模型刷新22
2.4.5 同化22
2.5 知识22
参考文献23
第3章 数据探索24
3.1 数据探索的目标24
3.2 数据集25
3.3 描述性统计26
3.3.1 单变量探索27
3.3.2 多变量探索28
3.4 数据可视化30
3.4.1 单变量的可视化31
3.4.2 多变量的可视化34
3.4.3 可视化高维数据38
3.5 数据探索的路线图40
参考文献41
第4章 分类42
4.1 决策树42
4.1.1 工作原理42
4.1.2 实现过程47
4.1.3 小结55
4.2 规则归纳56
4.2.1 工作原理58
4.2.2 实现过程60
4.2.3 小结63
4.3 k-NN(k-近邻)63
4.3.1 工作原理64
4.3.2 实现过程69
4.3.3 小结71
4.4 朴素贝叶斯71
4.4.1 工作原理72
4.4.2 实现过程77
4.4.3 小结79
4.5 人工神经网络80
4.5.1 工作原理82
4.5.2 实现过程84
4.5.3 小结86
4.6 支持向量机87
4.6.1 工作原理89
4.6.2 实现过程91
4.6.3 小结95
4.7 集成学习95
4.7.1 工作原理97
4.7.2 实现过程98
4.7.3 小结105
参考文献105
第5章 回归方法107
5.1 线性回归107
5.1.1 工作原理108
5.1.2 实现过程112
5.1.3 检查点117
5.2 逻辑回归120
5.2.1 工作原理122
5.2.2 实现过程124
5.2.3 总结要点127
5.3 总结127
参考文献127
第6章 关联分析128
6.1 挖掘关联规则129
6.1.1 项集130
6.1.2 规则生成132
6.2 Apriori算法133
6.3 频繁模式增长算法136
6.3.1 工作原理136
6.3.2 实现过程138
6.4 总结141
参考文献141
第7章 聚类142
7.1 k-means聚类145
7.1.1 工作原理147
7.1.2 实现过程149
7.2 DBSCAN聚类153
7.2.1 工作原理153
7.2.2 实现过程155
7.3 自组织映射158
7.3.1 工作原理159
7.3.2 实现过程161
参考文献166
第8章 模型评估168
8.1 混淆矩阵169
8.2 ROC和AUC170
8.3 提升曲线172
8.4 实现过程174
8.5 总结177
参考文献178
第9章 文本挖掘179
9.1 工作原理180
9.1.1 词频–逆文档频率180
9.1.2 词语181
9.2 实现过程184
9.2.1 实现1:关键词聚类184
9.2.2 实现2:预测博客作者的性别187
9.3 总结193
参考文献194
第10章 深度学习195
10.1 AI冬天197
10.1.1 AI冬天:20世纪70年代197
10.1.2 冬季解冻:20世纪80年代198
10.1.3 人工智能的春夏:2006年至今200
10.2 工作原理201
10.2.1 神经网络的回归模型201
10.2.2 梯度下降法202
10.2.3 需要反向传播204
10.2.4 分类超过2个:softmax205
10.2.5 卷积神经网络207
10.2.6 密集层211
10.2.7 随机失活层211
10.2.8 循环神经网络212
10.2.9 自动编码器213
10.2.10 相关AI模型213
10.3 实现过程214
10.4 总结217
参考文献218
第11章 推荐引擎219
11.1 推荐引擎的概念221
11.2 协同过滤225
11.2.1 基于邻域的方法226
11.2.2 矩阵分解233
11.3 基于内容的过滤238
11.3.1 用户画像的计算239
11.3.2 有监督学习方法245
11.4 混合推荐器249
11.5 总结250
参考文献251
第12章 时间序列预测253
12.1 时间序列分解256
12.1.1 经典分解258
12.1.2 实现过程258
12.2 基于平滑的方法260
12.2.1 简单预测方法260
12.2.2 指数平滑261
12.2.3 实现过程263
12.3 基于回归的方法264
12.3.1 回归265
12.3.2 周期性回归266
12.3.3 集成移动平均自回归模型268
12.3.4 周期性ARIMA272
12.4 机器学习方法274
12.4.1 窗口化275
12.4.2 神经网络自回归280
12.
|
內容試閱:
|
我们的目标是介绍数据科学。
我们将为你提供基础数据科学概念的综述以及实际实施的分步指导——足以让你开始这个激动人心的旅程。
为什么要有数据科学?
我们可以用尽各类形容词来描述数据的增长趋势。技术革命带来了以有意义的方式处理、存储、分析和理解大量不同数据的需求。但是,除非对其进行操作,否则存储数据的价值为零。数据体量和种类的规模对组织提出了新的要求,以便快速发现隐藏的关系和模式。这就是数据科学技术被证明非常有用的地方。它们越来越多地进入了商业和政府职能部门的日常活动,无论是确定哪些客户可能在其他地方开展业务,还是使用社交媒体来描绘流感大流行。
数据科学是从数据中提取价值的技术汇总。数据科学中使用的一些技术历史悠久,源于应用统计、机器学习、可视化、逻辑和计算机科学。一些技术刚刚达到应有的普及程度,大多数新兴技术都经历了所谓的“炒作周期”。这是一种将夸张或炒作的数量与新兴技术产生的生产力进行对比的方式。炒作周期有三个主要阶段:膨胀期望的高峰、幻灭的低谷和生产力的高原。第三阶段是指技术的成熟和价值创造阶段。数据科学的炒作周期表明它处于成熟阶段。这是否意味着数据科学已停止增长或已达到饱和点?一点也不。相反,该学科已超出其最初的市场营销应用范围,并已发展到在技术、互联网领域、医疗保健、政府、金融和制造业方面的应用。
为什么要写本书?
本书的目标有两个:以易于理解的方式阐明许多数据科学技术背后的基本概念;帮助基本掌握数学知识的人在他们的组织中实现这些技术,而无须编写任何程序代码。
除了数据科学的实用价值之外,我们还想向你展示其学习算法是优雅、美观且极其有效的。一旦学习了学习算法的概念,你将永远不会以相同的方式查看数据。
要阐明概念,必须构建数据科学模型。 虽然有许多数据科学工具可用于执行算法和开发应用程序,但解决数据科学问题的方法在这些工具中是相似的。我们希望选择一个功能齐全、开源、免费、基于图形用户界面的数据科学工具,以便读者可以遵循这些概念并实施数据科学算法。 RapidMiner是一个领先的数据科学平台,符合要求,因此,我们将其用作实现每章介绍的数据科学算法的配套工具。
谁能使用本书?
本书中描述的概念和实现适用于每天使用数据的业务员、分析师和技术人员。读者将全面了解可用于预测和发现模式的不同数据科学技术,为给定的数据问题选择正确的技术,并且能够创建通用分析过程。
我们试图按照一个过程来描述这一知识体系,重点是引入目前广泛使用的大约30种关键算法。我们在以下框架中提出这些算法:
1)每种算法的高级实际用例。
2)以简单的语言解释算法如何工作。许多算法在统计学和计算机科学中具有坚实的基础。在描述中,我们试图在更广泛的受众可理解性和学术严谨性之间取得平衡。
3)使用RapidMiner详细介绍实现过程,并使用示例数据集描述常用的设置和参数选项。你可以从配套网站(www.IntroDataScience.com)下载这些过程,我们建议你通过构建实际的数据科学过程来跟进学习。
分析师,财务、工程、营销和业务专业人员,或任何分析数据的人,很可能会在现在或不久的将来使用数据科学技术。对于离实际数据科学过程一步之遥的业务经理而言,重要的是了解这些技术的可能性和不可能性,以便提出正确的问题并设定适当的期望。虽然通过标准商业智能工具对数据进行基本的电子表格分析、切片和切块将继续构成业务中数据探索的基础,但数据科学技术对于在组织中建立完整的分析大厦是必要的。
维贾伊·库图,美国加利福尼亚州
巴拉·德斯潘德博士,美国密歇根州
|
|