新書推薦:
《
没有一种人生是完美的:百岁老人季羡林的人生智慧(读完季羡林,我再也不内耗了)
》
售價:HK$
56.9
《
日耳曼通识译丛:复原力:心理抗逆力
》
售價:HK$
34.3
《
海外中国研究·未竟之业:近代中国的言行表率
》
售價:HK$
135.7
《
我们为何建造(城市与生态文明丛书)
》
售價:HK$
89.7
《
算法经济 : 商业逻辑与人类生活的智能演进(生动呈现AI与算法的创新应用与商业价值)
》
售價:HK$
79.4
《
家书中的百年史
》
售價:HK$
79.4
《
偏爱月亮
》
售價:HK$
45.8
《
生物安全与环境
》
售價:HK$
56.4
|
編輯推薦: |
本书介绍了机器学习和人工智能的方方面面,并且由浅入深介绍了机器学习算法,逻辑清晰,案例丰富。对于想入门机器学习、人工智能的读者而言,本书是一本极好的参考指南。
杨秀璋——微信公众号“娜璋AI安全之家”的作者,CSDN博客专家
本书对时下的机器学习技术从多个方面进行了详细的介绍,从人工智能数学基础,到常见的机器学习算法,后到大数据Spark,书中都有具体的相关实例,内容全面而丰富,示例通俗易懂,是一本不错的机器学习参考读物。
梁云——微信公众号“算法美食屋”的作者,把复杂的算法做成美食,出版电子书《20天吃掉那只PyTorch》等
本书讲解了很多机器学习的具体案例,想了解机器学习研究趋势的读者可以阅读本书。本书非常适合初学者作为机器学习的入门书籍。对于想在机器学习甚至深度学习有所建树的初学者,这本书是极佳的启蒙书。
殷承志——前阿里人,ACM亚洲区域赛银牌得主,推荐算法专家,新加坡Shopee电商公司算法工程师
机器学习是算法工程师技术储备的重要组成部分,本书重点介绍了机器学习中的数学基础,该书选取了经典机器学习算法,利用Python实现算法,后给出了相应实战例子。总之,这是
|
內容簡介: |
通常来说,人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能的研究领域包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
机器学习就是用算法解析数据,不断学习,对世界中发生的事做出判断和预测的一项技术。生活中很多机器学习的书籍只注重算法理论方法,并没有注重算法的落地。《人工智能数学基础与Python机器学习实战》是初学者非常期待的入门书,书中有很多的示例可以帮助初学者快速上手。
《人工智能数学基础与Python机器学习实战》分为3个部分:第1章和第2章是人工智能的数学基础,主要介绍了机器学习的概念、Python开发环境的搭建、机器学习bibei的数学知识,以及线性代数和概率论的相关知识;第3~12章主要介绍了回归模型、分类模型、聚类模型、半监督模型的建立和相关算法的理论,以及如何使用sklearn具体实现相关算法模型的搭建;第13章介绍了Spark机器学习,笔者认为对于机器学习,不能只限于Python中的sklearn的学习,还要紧跟大数据时代的发展。
《人工智能数学基础与Python机器学习实战》内容通俗易懂,案例丰富,实用性强,特别适合Python语言的入门读者和进阶读者阅读,也适合其他算法程序员和编程爱好者阅读。
|
關於作者: |
刘润森,CSDN博客专家,熟悉PyTorch、TensorFlow等深度学习框架,对计算机视觉、机器学习和深度学习有深入研究,目前担任AI算法工程师,从事民航目标识别和检测的工作。
|
目錄:
|
第1章 走进机器学习的世界 1
1.1 机器学习概述 2
1.1.1 什么是机器学习 2
1.1.2 机器学习的分类 2
1.1.3 常用的机器学习算法 3
1.1.4 机器学习的流程 5
1.2 Python编程语言 6
1.2.1 Python环境搭建 6
1.2.2 机器学习相关软件包介绍 8
1.3 机器学习的数学知识 9
1.3.1 导数 9
1.3.2 基本函数的求导公式 9
1.3.3 求导法则 10
1.3.4 Python实现求导 10
1.3.5 泰勒展开式 12
1.3.6 微积分基本定理 14
1.3.7 基本函数的积分公式 14
1.3.8 Python实现积分 16
第2章 人工智能数学基础 18
2.1 线性代数 19
2.1.1 向量及其线性运算 19
2.1.2 矩阵及其线性运算 20
2.2 随机变量 26
2.2.1 离散型随机变量 26
2.2.2 连续型随机变量 27
2.3 随机变量概率分布 28
2.3.1 伯努利分布 28
2.3.2 泊松分布 29
2.3.3 指数分布 30
2.3.4 二项分布 31
2.3.5 正态分布 32
2.3.6 伽马分布 33
2.3.7 贝塔分布 34
2.3.8 卡方分布 35
2.3.9 t分布 37
2.3.10 F分布 40
第3章 数据获取和预处理 42
3.1 数据获取 43
3.1.1 自带和下载数据集 43
3.1.2 创建数据集 45
3.1.3 数据集 49
3.2 标准化 50
3.2.1 Z?score标准化 50
3.2.2 Min?Max标准化 51
3.3 二值化 52
3.3.1 特征二值化 52
3.3.2 标签二值化 53
3.4 特征处理 54
3.4.1 独热编码 54
3.4.2 多项式特征 56
3.4.3 PCA降维 57
3.5 数据清洗 59
3.5.1 Pandas数据清洗 59
3.5.2 sklearn处理缺失值 62
3.6 文本特征提取 64
3.6.1 字典提取器 64
3.6.2 词袋模型 65
3.6.3 权重向量 67
3.7 图像特征提取 69
3.7.1 提取像素矩阵 69
3.7.2 提取角点 71
3.7.3 提取轮廓 74
3.7.4 提取局部特征点 74
3.8 特征选择 76
3.8.1 Filter过滤法 76
3.8.2 Wrapper包装法 78
3.8.3 Embedded嵌入法 79
第4章 线性回归和逻辑回归 81
4.1 线性回归 82
4.1.1 小二乘法 82
4.1.2 梯度下降法 84
4.1.3 线性回归实现 86
4.1.4 Lasso回归和岭回归 90
4.1.5 回归模型评估 93
4.1.6 多项式回归 94
4.2 逻辑回归 96
4.2.1 逻辑回归算法 96
4.2.2 逻辑回归实现 98
4.2.3 分类模型评估 100
第5章 KNN和贝叶斯分类算法 107
5.1 KNN算法 108
5.1.1 KNN算法的距离度量 108
5.1.2 KNN算法代码实现 112
5.1.3 交叉验证 113
5.1.4 KD树 115
5.2 贝叶斯分类算法 118
5.2.1 贝叶斯定理 118
5.2.2 高斯朴素贝叶斯 119
5.2.3 多项式朴素贝叶斯 121
5.2.4 伯努利朴素贝叶斯 123
第6章 决策树和随机森林 125
6.1 决策树 126
6.1.1 熵 126
6.1.2 决策树算法 129
6.1.3 剪枝算法 131
6.2 决策树代码实现 133
6.2.1 可视化决策树 133
6.2.2 分类树 136
6.2.3 回归树 143
6.3 随机森林 144
6.3.1 集成学习算法 144
6.3.2 随机森林分类 145
6.3.3 随机森林回归 148
第7章 支持向量机 150
7.1 SVM核心概念 151
7.1.1 线性可分 151
7.1.2 核函数 153
7.2 SVM代码实现 154
7.2.1 SVC 154
7.2.2 SVM人脸识别 158
7.2.3 SVR 161
第8章 聚类算法 163
8.1 K?means聚类算法 164
8.1.1 K?means聚类算法原理 164
8.1.2 模型评估 166
8.1.3 图像处理 167
8.1.4 K?means聚类算法实例 169
8.2 层次聚类算法 173
8.2.1 层次聚类算法原理 173
8.2.2 层次聚类算法实例 174
8.3 密度聚类算法 176
8.3.1 密度聚类算法原理 176
8.3.2 密度聚类算法实例 177
第9章 EM和HMM聚类算法 179
9.1 EM聚类算法 180
9.1.1 似然估计 180
9.1.2 詹森不等式 181
9.1.3 EM算法原理 182
9.2 EM算法代码实现 183
9.3 HMM聚类算法 186
9.3.1 马尔可夫过程 186
9.3.2 隐马尔可夫模型 187
第10章 主题模型 190
10.1 LDA主题模型 191
10.1.1 Dirichlet分布 191
10.1.2 LDA贝叶斯模型 192
10.2 自然语言处理常用工具包 193
10.2.1 NLTK 193
10.2.2 spaCy 196
10.2.3 Gensim 197
10.2.4 jieba 201
10.2.5 Stanford NLP 202
10.2.6 FuzzyWuzzy 203
10.2.7 HanLP 204
10.3 LDA主题模型实例 207
第11章 推荐算法 212
11.1 关联规则 213
11.1.1 置信度 213
11.1.2 支持度 213
11.1.3 提升度 214
11.1.4 关联规则代码实现 214
11.2 基于用户行为的推荐算法 217
11.2.1 矩阵分解 217
11.2.2 SVD算法代码实现 219
11.3 基于评分的推荐算法 221
11.3.1 SlopeOne算法 221
11.3.2 SlopeOne算法代码实现 222
11.4 协同过滤 222
第12章 数据建模 226
12.1 监督学习 227
12.1.1 监督学习回归 227
12.1.2 监督学习分类 228
12.2 半监督学习 235
12.2.1 标签传播算法 235
12.2.2 半监督学习分类 236
12.3 保存模型 239
12.3.1 pickle 239
12.3.2 joblib 240
12.3.3 sklearn2pmml 240
第13章 Spark机器学习 244
13.1 Spark分布式集群搭建 245
13.1.1 创建CentOS 7虚拟机 245
13.1.2 设置静态IP 247
13.1.3 配置SSH服务 248
13.1.4 安装Java 248
13.1.5 搭建三台CentOS 7主机 249
13.1.6 修改hosts文件 250
13.1.7 配置SSH免密码登录 251
13.1.8 搭建Hadoop集群 252
13.1.9 搭建ZooKeeper集群 255
13.1.10 启动Hadoop和ZooKeeper集群 257
13.1.11 搭建Spark集群 260
13.2 Hadoop和Spark的基础知识 262
13.2.1 HDFS 262
13.2.2 Spark Shell 264
13.2.3 RDD编程 268
13.2.4 Spark SQL 273
13.3 Spark MLlib 279
13.3.1 回归模型 279
13.3.2 分类模型 281
|
內容試閱:
|
这项技术有什么前途
这是一本关于人工智能数学基础和机器学习的书。机器学习是人工智能的技术基础,国内已有很多院校设立了人工智能专业,机器学习当仁不让地成为该专业的核心课程。自从AlphaGo和韩国九段棋手李世石的人机大战起,人工智能开始流行。人工智能的火热,使得常年不温不火的Python编程语言也异常火热起来,甚至很多人喊起了“人生苦短,我学Python”的口号。
机器学习在图像处理、语音识别、自然语言处理方面发挥了越来越大的作用,例如,使用GBDT选择特征,配合Logistic回归做分类,已经成了点击率预估的经典模型。同时,机器学习也渗透到各个传统行业中并产生巨大的社会价值。从某种意义上来说,机器学习在我们的生活中无处不在。机器学习在各领域中扮演了日益重要的角色,从各方面影响和改变着我们的生活。
笔者的使用体会
笔者早从大一下学期开始接续学习机器学习,也曾在CSDN中分享一些相关机器学习的教程和其他IT领域的学习笔记,因此有出版社的朋友找到笔者,希望可以将这些内容整理成书,于是就有了这本书。对笔者而言,本书也是对自己学习成果的总结。大家千万不要认为学习机器学习就是调包,而忽视了里面数学的美,也不要过于在意里面的复杂算法。就国内而言,除少数公司的机器学习部门是推公式、做理论优化外,大部分机器学习岗位都是在用成熟的工具做开发、搞特征、调模型、上线产品。例如,阿里云机器学习PAI平台,封装了上百种算法,提供了完整的机器学习链路,重点是具有可视化操作界面,通过拖曳操作,进行少量配置,即可完成业务处理。这里提醒一句,数学对于机器学习来说是非常重要的。同时,数据分析也很重要,这里包括对数据的理解、对统计学的认知等,可以说,一个好的机器学习算法工程师也一定是一个好的数据分析师。
本书的特色
有些读者在学习时会有这样一种感觉:一门课学完了、考试过了,却不知道学了有什么用,尤其是数学类的课程。这是因为传统教材大多数是按照“定义—例题—习题”的步骤来大篇幅罗列数学概念,偏重理论定义和运算技巧,不注重梳理学科内在的逻辑脉络,更没能深刻挖掘出本学科与当下前沿技术的交会点。因此,本书采用了很多的案例和代码,不局限于算法本身,更注重于实践方面。
本书具有以下特点。
(1)大多数的章节都有典型的Python算法和案例,深入浅出地解释理论,方便学习理解。本书代码绝大多数采用Python语言编写,代码简单优雅,易于上手。本书非常适合想要快速上手机器学习的人员使用。
(2)本书的知识涉及范围较广,包括高等数学、线性代数、概率论、数据处理和机器学习算法等方面。
读者对象 有一定的数学基础,希望了解机器学习算法的读者。对人工智能、机器学习感兴趣的读者。机器学习、人工智能专业的大学生。数据分析师。 资源下载
本书所涉及的数据集和源代码已上传到百度网盘,供读者下载。请读者关注封底“博雅读书社”微信公众号,找到“资源下载”栏目,输入图书77页的资源下载码,根据提示获取。另外,读者也可以通过GitHub下载:https://github.com/MaoliRUNsen/machine_learning_book。
|
|