新書推薦:
《
唐宋绘画史 全彩插图版
》
售價:HK$
101.2
《
“御容”与真相:近代中国视觉文化转型(1840-1920)
》
售價:HK$
113.9
《
海洋、岛屿和革命:当南方遭遇帝国(文明的另一种声音)
》
售價:HK$
109.3
《
铝合金先进成型技术
》
售價:HK$
273.7
《
英雄之旅:把人生活成一个好故事
》
售價:HK$
89.7
《
分析性一体的涌现:进入精神分析的核心
》
售價:HK$
125.4
《
火枪与账簿:早期经济全球化时代的中国与东亚世界
》
售價:HK$
79.4
《
《全面与进步跨太平洋伙伴关系协定》国有企业条款研究
》
售價:HK$
101.2
編輯推薦:
本书全面、 系统地介绍了机器学习领域中的经典方法, 并兼顾算法原理与实践运用。 具体内容涉及:
回归分析(线性回归、 多项式回归、 非线性回归、 岭回归、LASSO、 弹性网络, 以及 RANSAC 等)
分类(感知机、逻辑回归、 朴素贝叶斯、 决策树、 支持向量机、 神经网络等)
聚类(k均值、EM 算法、 密度聚类、 层次聚类以及谱聚类等)
集成学习(随机森林、AdaBoost、 梯度提升等)
蒙特卡洛采样(拒绝采样、 自适应拒绝采样、 重要性采样、 吉布斯采样和马尔可夫链蒙特卡洛等)
降维与流形学习(SVD、PCA 和 MDS 等)
概率图模型(贝叶斯网络和隐马尔可夫模型)
內容簡介:
本书系统地介绍统计分析和机器学习领域中*为重要和流行的多种技术及其基本原理,本书在详解有关算法的基础上,结合大量Python语言实例演示了这些理论在实践中的使用方法。具体内容包括线性回归(包括岭回归和Lasso方法)、逻辑回归、支持向量机、感知机与神经网络、聚类分析(包括K均值算法、EM算法、密度聚类等)、降维与流形学习、集成学习、KNN、朴素贝叶斯、概率图模型(包括贝叶斯网络和HMM模型)等内容。
關於作者:
左飞 博士,技术作家、译者。著作涉及人工智能、图像处理和编程语言等多个领域,其中两部作品的繁体版在中国台湾地区发行。同时,他还翻译出版了包括《编码》在内的多部经典著作。曾荣获最受读者喜爱的IT图书作译者奖。他撰写的技术博客(https:baimafujinji.blog.csdn.net)非常受欢迎,累计拥有近500万的访问量。补彬,算法工程师,毕业于澳大利亚墨尔本大学计算机科学系。目前就职于爱奇艺,从事业务安全相关算法研究工作。
目錄 :
第1章机器学习初探
1.1初识机器学习
1.1.1从小蝌蚪找妈妈谈起
1.1.2机器学习的主要任务
1.2工欲善其事,必先利其器
1.2.1scikitlearn
1.2.2NumPy
1.2.3SciPy
1.2.4Matplotlib
1.2.5Pandas
1.3最简单的机器学习模型
1.3.1贝叶斯公式与边缘分布
1.3.2先验概率与后验概率
1.3.3朴素贝叶斯分类器原理
1.4泰坦尼克之灾
1.4.1认识问题及数据
1.4.2数据预处理
1.4.3特征筛选
1.4.4分类器的构建
1.4.5分类器的评估
第2章一元线性回归
2.1回归分析的性质
2.2回归的基本概念
2.2.1总体的回归函数
2.2.2随机干扰的意义
2.2.3样本的回归函数
2.3回归模型的估计
2.3.1普通最小二乘法原理
2.3.2一元线性回归的应用
2.3.3经典模型的基本假定
2.3.4总体方差的无偏估计
2.3.5估计参数的概率分布
2.4正态条件下的模型检验
2.4.1拟合优度的检验
2.4.2整体性假定检验
2.4.3单个参数的检验
2.5一元线性回归模型预测
2.5.1点预测
2.5.2区间预测
第3章多元线性回归
3.1多元线性回归模型
3.2多元回归模型估计
3.2.1最小二乘估计量
3.2.2多元回归的实例
3.2.3总体参数估计量
3.3从线代角度理解最小二乘
3.3.1最小二乘问题的通解
3.3.2最小二乘问题的计算
3.4多元回归模型检验
3.4.1线性回归的显著性
3.4.2回归系数的显著性
3.5多元线性回归模型预测
3.6格兰杰因果关系检验
第4章线性回归进阶
4.1更多回归模型函数形式
4.1.1双对数模型以及生产函数
4.1.2倒数模型与菲利普斯曲线
4.1.3多项式回归模型及其分析
4.2回归模型的评估与选择
4.2.1嵌套模型选择
4.2.2赤池信息准则
4.3现代回归方法的新进展
4.3.1多重共线性
4.3.2从岭回归到LASSO
4.3.3正则化与没有免费午餐原理
4.3.4弹性网络
4.3.5RANSAC
第5章逻辑回归与最大熵模型
5.1逻辑回归
5.2牛顿法解逻辑回归
5.3应用实例: 二分类问题
5.3.1数据初探
5.3.2建模
5.4多元逻辑回归
5.5最大熵模型
5.5.1最大熵原理
5.5.2约束条件
5.5.3模型推导
5.5.4极大似然估计
5.6应用实例: 多分类问题
5.6.1数据初探
5.6.2建模
第6章神经网络
6.1从感知机开始
6.1.1感知机模型
6.1.2感知机学习
6.1.3多层感知机
6.1.4感知机应用示例
6.2基本神经网络
6.2.1神经网络结构
6.2.2符号标记说明
6.2.3后向传播算法
6.3神经网络实践
6.3.1建模
6.3.2Softmax与神经网络
第7章支持向量机
7.1线性可分的支持向量机
7.1.1函数距离与几何距离
7.1.2最大间隔分类器
7.1.3拉格朗日乘数法
7.1.4对偶问题的求解
7.2松弛因子与软间隔模型
7.3非线性支持向量机方法
7.3.1从更高维度上分类
7.3.2非线性核函数方法
7.3.3机器学习中的核方法
7.3.4默瑟定理
7.4对数据进行分类的实践
7.4.1数据分析
7.4.2线性可分的例子
7.4.3线性不可分的例子
第8章k近邻算法
8.1距离度量
8.2k近邻模型
8.2.1分类
8.2.2回归
8.3在Python中应用k近邻算法
8.4k近邻搜索的实现
8.4.1构建kdtree
8.4.2区域搜索
8.4.3最近邻搜索
第9章决策树
9.1决策树基础
9.1.1Hunt算法
9.1.2基尼测度与划分
9.1.3信息熵与信息增益
9.1.4分类误差
9.2决策树进阶
9.2.1ID3算法
9.2.2C4.5算法
9.3分类回归树
9.4决策树剪枝
9.5决策树应用实例
第10章集成学习
10.1集成学习的理论基础
10.2Bootstrap方法
10.3Bagging与随机森林
10.3.1算法原理
10.3.2应用实例
10.4Boosting与AdaBoost
10.4.1算法原理
10.4.2应用实例
10.5梯度提升
10.5.1梯度提升树与回归
10.5.2梯度提升树与分类
10.5.3梯度提升树的原理推导
第11章聚类分析
11.1聚类的概念
11.2k均值算法
11.2.1算法描述
11.2.2应用实例图像的色彩量化
11.3最大期望算法
11.3.1算法原理
11.3.2收敛探讨
11.4高斯混合模型
11.4.1模型推导
11.4.2应用实例
11.5密度聚类
11.5.1DBSCAN算法
11.5.2应用实例
11.6层次聚类
11.6.1AGNES算法
11.6.2应用实例
11.7谱聚类
11.7.1基本符号
11.7.2正定矩阵与半正定矩阵
11.7.3拉普拉斯矩阵
11.7.4相似图
11.7.5谱聚类切图
11.7.6算法描述
11.7.7应用实例
第12章降维与流形学习
12.1主成分分析
12.2奇异值分解
12.2.1一个基本的认识
12.2.2为什么可以做SVD
12.2.3SVD与PCA的关系
12.2.4应用举例与矩阵的伪逆
12.3多维标度法
第13章采样方法
13.1蒙特卡洛法求定积分
13.1.1无意识统计学家法则
13.1.2投点法
13.1.3期望法
13.2蒙特卡洛采样
13.2.1逆采样
13.2.2博克斯穆勒变换
13.2.3拒绝采样与自适应拒绝采样
13.3矩阵的极限与马尔科夫链
13.4查普曼柯尔莫哥洛夫等式
13.5马尔科夫链蒙特卡洛
13.5.1重要性采样
13.5.2马尔科夫链蒙特卡洛的基本概念
13.5.3梅特罗波利斯黑斯廷斯算法
13.5.4吉布斯采样
第14章概率图模型
14.1共轭分布
14.2贝叶斯网络
14.2.1基本结构单元
14.2.2模型推理
14.3贝叶斯网络的Python实例
14.4隐马尔科夫模型
14.4.1随机过程
14.4.2从时间角度考虑不确定性
14.4.3前向算法
14.4.4维特比算法
內容試閱 :
清晨你刚睁开惺忪的睡眼,公寓的智能管家Jarvis便通过心率、体温等信息监测到你醒了。窗帘缓缓拉开,耳边传来舒缓的音乐,高大白胖的机器人Baymax为你送来了清晨的第一杯咖啡。看着投影在空气中的天气预报,你扬起了嘴角。今天又是阳光明媚的一天!突然场景一转,万籁俱寂,眼前出现了无数以人为电池的机械虫茧。背后脚步声响起,你转头看见一个酷似施瓦辛格的T800型机器人正拿枪对着你。多年以后,当你在新闻里看到机器人三大定律时,准会想起第一次翻开这本书看到机器学习这个词的那个遥远的下午
上面这个荒诞不经的梦,糅合了多个有关人工智能的经典电影场景。人们一方面畅想着人工智能带来的便捷与美好; 另一方面又时刻警惕着技术进步可能带来的问题与危害。2016年3月,由Google旗下DeepMind公司开发的围棋机器人AlphaGo以4∶1战胜围棋世界冠军李世石。其后,AlphaGo化名Master在互联网上对战中日韩围棋高手六十余局无一败绩。次年5月,AlphaGo以3∶0完胜当时世界排名第一的围棋冠军柯洁。此后AlphaGo便不再参加围棋比赛,退隐江湖了。一时间机器人威胁论甚嚣尘上,仿佛电影中具备人类等级智能的机器人已经触手可及。事实上,这种级别的智能体离我们还有相当长的一段距离。美国作家霍华德洛夫克拉夫特(Howard Lovecraft)有句名言: The oldest and strongest emotion of mankind is fear, and the oldest and strongest kind of fear is fear of the unknown,简单地说就是恐惧源于未知。这种事情在人类历史上屡见不鲜,探索未知、了解未知才能克服它带来的恐惧。15世纪的人们仍然认为世界是方的,海洋的尽头是无尽的深渊。正是无数航海家对海洋的探索消弭了人类的恐惧,才会有后来大航海时代带来的地理大发现。同样地,与其人云亦云地担忧人工智能可能带来的危害,不如去学习了解它,寻找规避风险的方法才更实际。毕竟工具无所谓好坏,关键在于用它的人。
机器学习是人工智能非常重要的分支,其发展历程则需要追溯到20世纪。早期的人工智能研究,主要集中在对机器推理能力的研究。这一阶段比较著名的成果是人工智能符号主义学派创始人艾伦纽厄尔(Allen Newell)和他的老师赫伯特西蒙(Herbert Simon)一起创建的逻辑理论家程序,它在1952年证明了《数学原理》中的38条定理。纽厄尔和西蒙也因在人工智能和认知心理学领域的基础性贡献而共同获得了1975年度的图灵奖。后来人们发现,仅仅具备推理能力是不够的,人工智能需要具备知识。于是人们将知识总结出来教给机器,让计算机基于专家知识进行自动推理从而模仿专家解决特定领域的问题。基于这个理念,20世纪60年代诞生了第一个成功的专家系统DENDRAL,它可以根据质谱仪的数据推断物质分子结构。专家系统显而易见的问题是,需要大量特定领域的专家提取总结知识。然而对每个特定的领域针对性地构造专家系统是不现实的,也正是这个问题使其发展进入了瓶颈。为了解决这个问题,人们尝试让机器自己学习总结知识。研究人员提出了各种各样的学习方法。不过从20世纪80年代以来,研究和应用最广泛的是从样例中学习 的方法。其最大的特点是,用算法直接从样本中学习总结数据的相关知识,而不显示地编程教给计算机这些知识。本书介绍的主要内容就属于这一范畴。
时至今日,机器学习已经发展成为一个非常庞大的学科领域。近些年非常火热的深度学习(Deep Learning)就是机器学习的子分支,其在自然语言处理、计算机视觉等领域有着非常出色的表现。其他像强化学习(Reinforcement Learning)、迁移学习(Transfer Learning)等分支在自动驾驶、图像处理等领域也有着十分广泛的应用前景。
万丈高楼平地起,勿在浮沙筑高台。尽管机器学习领域的新发展已经到了令人目不暇接的地步,但所有的这些新技术或者新分支无不是在经典方法基础之上建立的。或者说,先进方法设计中所蕴含的思想、涉及的概念其实都源自于经典理论。例如,深度学习中必然会遇到的反向传播、梯度下降、正则化、Softmax等内容其实早就存在于经典机器学习方法的教科书里了。因此,能否牢固掌握并深刻理解经典理论或方法,对后续更进一步的学习、研究与运用无疑是至关重要的。
本书全面、系统地介绍了机器学习领域中的经典方法,并兼顾算法原理与实践运用。本书具体内容涉及回归分析(线性回归、多项式回归、非线性回归、岭回归、LASSO、弹性网络以及RANSAC等)、分类(感知机、逻辑回归、朴素贝叶斯、决策树、支持向量机、人工神经网络等)、聚类(k均值、EM算法、密度聚类、层次聚类以及谱聚类等)、集成学习(随机森林、AdaBoost、梯度提升等)、蒙特卡洛采样(拒绝采样、自适应拒绝采样、重要性采样、吉布斯采样和马尔科夫链蒙特卡洛等)、降维与流形学习(SVD、PCA和MDS等),以及概率图模型(例如,贝叶斯网络和隐马尔科夫模型)等话题。
本书各章节的内容,基于全新设计的学习路线图编写,层层递进又紧密联系; 既适合自学,又有利于读者深化理解原理细节,从而建立完整而系统的全局观。
纸上得来终觉浅,绝知此事要躬行。本书力求在清晰阐述算法原理的同时,还基于机器学习经典框架scikitlearn提供了算法的应用实例,便于读者快速上手。特别地,书中的示例代码采用机器学习与数据科学领域最广泛使用的Python语言编写。当然,我们并不要求读者已经具备Python编程方面的背景。即使从未使用过Python语言的人依然可以阅读本书。
读者还可以访问编者在CSDN上的技术博客(白马负金羁),该博客主要关注机器学习、数据挖掘、深度学习及数据科学等话题,其中提供的很多技术文章可作为本书的补充材料,供广大读者在自学时参考。读者在阅读本书时遇到的问题以及对本书的意见或建议,可以在该博客上通过留言的方式同编者进行交流。
自知论道须思量,几度无眠一文章。由于时间和能力有限,书中疏漏在所难免,真诚地希望各位读者和专家不吝批评、指正。
编者
2021年1月