新書推薦:
《
便宜货:廉价商品与美国消费社会的形成
》
售價:HK$
77.3
《
读书是一辈子的事(2024年新版)
》
售價:HK$
77.3
《
乐道文库·什么是秦汉史
》
售價:HK$
80.6
《
汉娜·阿伦特与以赛亚·伯林 : 自由、政治与人性
》
售價:HK$
109.8
《
女性与疯狂(女性主义里程碑式著作,全球售出300万册)
》
售價:HK$
109.8
《
药食同源中药鉴别图典
》
售價:HK$
67.0
《
设计中的比例密码:建筑与室内设计
》
售價:HK$
87.4
《
冯友兰和青年谈心系列:看似平淡的坚持
》
售價:HK$
55.8
|
內容簡介: |
本书详细介绍了数据科学领域的相关智能技术,包括数据分析、基本学习算法、模糊逻辑、人工神经网络、基因算法和进化计算、使用R语言进行大数据分析等。本书可以作为高等院校计算机专业本科生和研究生,以及其他专业研究生的人工智能课程的教材,也可以作为相关教师和数据分析技术人员的参考书。
|
目錄:
|
译者序
前言
第1章 绪论1
1.1 引言1
1.2 数据科学的历史2
1.3 现代商业中数据科学的重要性3
1.4 数据科学家5
1.5 三维数据科学活动6
1.5.1 管理数据流7
1.5.2 处理数据管理8
1.5.3 数据分析11
1.6 数据科学与其他领域交叉11
1.7 数据分析思维13
1.8 应用领域13
1.8.1 资源的可持续发展13
1.8.2 利用社交平台进行各种活动14
1.8.3 智能Web应用14
1.8.4 Google自动统计员项目15
1.9 应用计算智能管理数据科学活动15
1.10 商业中的数据科学场景17
1.11 有助于数据科学的工具和技术17
1.11.1 数据清洗工具18
1.11.2 数据管理和建模工具19
1.11.3 数据可视化工具20
1.12 练习21
参考文献22
第2章 数据分析23
2.1 引言23
2.2 跨行业标准过程24
2.3 数据分析生命周期25
2.4 数据科学项目生命周期27
2.5 数据分析的复杂性28
2.6 从数据到洞察力30
2.7 构建分析能力:银行案例31
2.8 数据质量32
2.9 数据准备过程33
2.10 沟通分析结果34
2.10.1 沟通分析结果的策略34
2.10.2 数据可视化35
2.10.3 可视化技术36
2.11 练习37
参考文献37
第3章 基本学习算法38
3.1 从数据中学习38
3.2 监督学习40
3.2.1 线性回归40
3.2.2 决策树41
3.2.3 随机森林46
3.2.4 k-近邻算法47
3.2.5 逻辑回归49
3.2.6 模型组合器50
3.2.7 朴素贝叶斯53
3.2.8 贝叶斯信念网络54
3.2.9 支持向量机56
3.3 无监督学习57
3.3.1 Apriori 算法58
3.3.2 k-means算法60
3.3.3 用于数据压缩的降维62
3.4 强化学习62
3.5 案例研究:使用机器学习进行市场营销活动65
3.6 练习66
参考文献67
第4章 模糊逻辑68
4.1 引言68
4.2 模糊隶属函数70
4.2.1 三角形隶属函数71
4.2.2 梯形隶属函数71
4.2.3 高斯隶属函数71
4.2.4 sigmoid隶属函数72
4.3 隶属值分配方法72
4.4 模糊化与解模糊化方法73
4.5 模糊集合操作73
4.5.1 模糊集合的并集74
4.5.2 模糊集合的交集74
4.5.3 模糊集合的补集74
4.6 模糊集合性质76
4.7 模糊关系76
4.8 模糊命题79
4.8.1 模糊连接词79
4.8.2 析取79
4.8.3 合取80
4.8.4 否定80
4.8.5 蕴含80
4.9 模糊推理80
4.10 基于模糊规则的系统81
4.11 数据科学的模糊逻辑82
4.11.1 应用1:Web内容挖掘83
4.11.2 应用2:Web结构挖掘84
4.11.3 应用3:Web使用挖掘85
4.11.4 应用4:环境和社交数据处理86
4.12 用模糊逻辑进行数据科学活动的工具和技术87
4.13 练习88
参考文献88
第5章 人工神经网络89
5.1 引言89
5.2 符号学习方法90
5.3 人工神经网络及其特点91
5.4 ANN模型93
5.4.1 Hopfield模型93
5.4.2 感知器模型94
5.4.3 多层感知器96
5.4.4 多层感知器的深度学习98
5.4.5 其他ANN模型100
5.4.6 线性回归与神经网络101
5.5 ANN工具和程序102
5.6 社交网络平台上的情感挖掘103
5.6.1 情感挖掘相关工作103
5.6.2 广泛架构104
5.6.3 神经网络设计104
5.7 应用与挑战106
5.8 关注点107
5.9 练习108
参考文献109
第6章 遗传算法与进化计算111
6.1 引言111
6.2 遗传算法112
6.3 遗传算法的基本原理114
6.3.1 个体编码114
6.3.2 变异114
6.3.3 交叉115
6.3.4 适应度函数116
6.3.5 选择116
6.3.6 其他编码策略117
6.4 利用遗传算法进行函数优化的实例118
6.5 模式与模式定理120
6.5.1 实例、定义位和模式顺序120
6.5.2 模式的重要性121
6.6 基于特殊应用的遗传算子121
6.7 进化编程123
6.8 遗传算法在医疗保健中的应用124
6.8.1 医疗保健案例124
6.8.2 基于遗传算法的病人调度系统125
6.8.3 编码候选者127
6.8.4 种群上的操作127
6.8.5 其他应用128
6.9 练习130
参考文献131
第7章 其他元启发式和分类方法132
7.1 引言132
7.2 自适应记忆过程132
7.2.1 禁忌搜索133
7.2.2 分散搜索134
7.2.3 路径重连136
7.3 群体智能136
7.3.1 蚁群优化137
7.3.2 人工蜂群算法138
7.3.3 河流形成动力学139
7.3.4 粒子群优化139
7.3.5 随机扩散搜索141
7.3.6 群体智能与大数据142
7.4 案例推理142
7.4.1 案例推理中的学习144
7.4.2 案例推理与数据科学145
7.4.3 处理复杂的领域146
7.5 粗糙集146
7.6 练习148
参考文献148
第8章 分析和大数据149
8.1 引言149
8.2 传统分析与大数据分析150
8.3 大规模并行处理152
8.3.1 MapReduce152
8.3.2 与RDBMS的比较154
8.3.3 共享存储的并行编程155
8.3.4 Apache Hadoop 生态系统155
8.3.5 Hadoop分布式文件系统157
8.4 NoSQL
|
內容試閱:
|
信息和通信技术(ICT)已成为开展业务的常用工具。凭借ICT提供的高度适用性和支持,许多困难的计算任务都得到了简化。另一方面,信息和通信技术也成为创造挑战的关键因素!如今,如果不使用智能技术,那么在各领域收集的数据规模将远远超过我们缩减数据和分析数据的能力。积累的(大)数据中隐藏着很多有价值的信息。然而,要获得这些有价值的信息和洞察力是非常困难的。因此,帮助人类从数据中提取知识的新一代计算理论和工具是必不可少的。毕竟,为什么这些本质上聪明、智能的工具和技术不用来最小化人的参与,以及有效地管理海量数据呢?
计算智能技术,包括神经网络、模糊系统、进化计算以及其他的机器学习领域,在用于支持业务决策的数据识别、可视化、分类和分析等方面非常有效。已开发的计算智能理论已经应用于工程、数据分析、预测、医疗保健等许多领域。本书将这些技巧结合在一起来解决数据科学中的问题。
最近出现的“数据科学”一词,特指一个使得海量数据变得有意义的新行业。但是,处理数据并使其有意义这一点具有悠久历史。数据科学是一套用于支持和指导从数据中提取信息和洞察力的基本原则。与数据科学最密切相关的概念很可能是数据挖掘——通过包含这些原则,从数据中提取知识的技术。数据科学的核心输出是数据产品。数据产品可以是从推荐列表到仪表板的任何产品,也可以是支持实现更明智决策的任何产品。分析是数据科学的核心。分析侧重根据统计模型来理解数据。它关注数据的收集、分析和解释,以及数据分析结果的有效组织、展示和交流。
这本教材旨在满足希望从事数据科学和计算智能领域的研究和开发人员的需求。
全书概览
自1994年以来,我们在不同地方以不同形式教授了本书中的主题。特别是,本书基于作者过去几年在不同大学和不同研究机构所教授的研究生课程,其内容涉及各种数据科学的相关知识。来自参与者和同事的反馈在很大程度上帮助我们改进了本书的内容。
本书可以作为研究生或高年级本科生的一些课程的教科书或主要参考书,这些课程包括智能控制、计算科学、应用人工智能以及数据库中的知识发现等。
本书以智能的方式为读者设计和实现用于实际应用的数据分析方案奠定了坚实的基础。本书共分为9章。
下面简要介绍每一章中的内容。
数据对于任何企业而言都是重要资产。数据可以为客户行为、市场资讯以及运营绩效等领域提供有价值的洞察力。数据科学家搭建智能系统来管理、解释、理解数据,并从这些数据中获取关键知识。第1章概述了数据科学的这些方面。特别强调的是,帮助学生确定数据科学思维在数据驱动型企业中的重要性。
数据科学项目不同于典型的商业智能项目。第2章概述了数据生命周期、数据科学项目生命周期以及数据分析生命周期。本章还着重解释了标准的数据分析过程。
对于数据科学家而言,最常见的任务是预测和机器学习。机器学习侧重于数据建模,以及与数据科学相关的方法和学习算法。第3章详细介绍了数据科学家和分析师所使用的方法和算法。
模糊集合可以用作通用的近似器,这对建模未知的对象至关重要。如果操作员能够在特定情景下通过语言描述要采取的行动类型,那么使用数据对他的控制行为进行建模就非常有用。第4章介绍了模糊逻辑的基本概念及其在数据科学中的实际应用。
第5章介绍了人工神经网络——一种模拟人脑的计算智能技术。人工神经网络的一个重要特征是其适应性,其中“通过实例学习”取代了解决问题时的传统“编程”。另一个显著特征是允许快速计算的内在并行性。本章为神经网络和深度学习提供了实用的入门知识。
进化计算是一种创新的优化方法。进化计算的一个领域——遗传算法——涉及全局优化算法的使用。遗传算法基于自然选择和遗传学机制。第6章描述了机器学习环境中的进化计算,特别是生物进化和遗传算法。
当问题计算较困难或者仅仅是计算复杂度太高时,元启发式被认为是用于优化的健壮性方法。虽然元启发式通常不会生成最优解决方案,但它们可以在适当的计算时间内提供合理的解决方案,例如通过使用随机机制。元启发式和数据分析有着共同的基础,因为它们通过增量操作,在难解的搜索空间中寻找近似结果。第7章简要介绍了元启发式方法的基本要素,如自适应记忆方法和群体智能。本章还进一步讨论了分类方法,如案例推理。这种分类方法基于这一思想,即以前已解决问题的积累经验可以很好地代表新的情况。基于案例的推理已用于重要的现实世界应用中。
为了利用好大数据,就需要不断地进行分析,并利用数据中的价值。这需要一个基础架构,可以管理和处理大量的结构化和非结构化数据——数据流和存储中的数据——并且可以保护数据隐私和安全。第8章提供了广泛的、涵盖大数据的技术和工具,这些技术和工具支持高级分析、数据隐私以及伦理和安全问题。
第9章给出了R编程语言的简单介绍。R语言既优雅又灵活,并且具有用于数据处理的大量语法。R还包含强大的图形功能。
最后,附录提供了一系列在实践中处理数据科学的流行工具。在整本书中,真实世界的案例研究和练习都是为了强调该材料所涵盖的某些方面,并激发思想。
读者对象
本
|
|