目录Understanding Machine Learning:From Theory to Algorithms出版者的话译者序前言致谢第1章引论111什么是学习112什么时候需要机器学习213学习的种类314与其他领域的关系415如何阅读本书416符号6第一部分理论基础第2章简易入门1021一般模型——统计学习理论框架1022经验风险最小化1123考虑归纳偏置的经验风险最小化1224练习15第3章一般学习模型1731PAC学习理论1732更常见的学习模型18321放宽可实现假设——不可知PAC学习18322学习问题建模1933小结2134文献评注2135练习21第4章学习过程的一致收敛性2441一致收敛是可学习的充分条件2442有限类是不可知PAC可学习的2543小结2644文献评注2745练习27第5章偏差与复杂性权衡2851“没有免费的午餐”定理2852误差分解3153小结3154文献评注3255练习32第6章VC维3361无限的类也可学习3362VC维概述3463实例35631阈值函数35632区间35633平行于轴的矩形35634有限类36635VC维与参数个数3664PAC学习的基本定理3665定理67的证明37651Sauer引理及生长函数37652有小的有效规模的类的一致收敛性3966小结4067文献评注4168练习41第7章不一致可学习4471不一致可学习概述4472结构风险最小化4673最小描述长度和奥卡姆剃刀4874可学习的其他概念——一致收敛性5075探讨不同的可学习概念5176小结5377文献评注5378练习54第8章学习的运行时间5681机器学习的计算复杂度5682ERM规则的实现58821有限集58822轴对称矩形59823布尔合取式59824学习三项析取范式6083高效学习,而不通过合适的ERM6084学习的难度*6185小结6286文献评注6287练习62第二部分从理论到算法第9章线性预测6691半空间66911半空间类线性规划67912半空间感知器68913半空间的VC维6992线性回归70921最小平方70922多项式线性回归7193逻辑斯谛回归7294小结7395文献评注7396练习73第10章boosting75101弱可学习75102AdaBoost78103基础假设类的线性组合80104AdaBoost用于人脸识别82105小结83106文献评注83107练习84第11章模型选择与验证85111用结构风险最小化进行模型选择85112验证法861121留出的样本集861122模型选择的验证法871123模型选择曲线881124k折交叉验证881125训练验证测试拆分89113如果学习失败了应该做什么89114小结92115练习92第12章凸学习问题93121凸性、利普希茨性和光滑性931211凸性931212利普希茨性961213光滑性97122凸学习问题概述981221凸学习问题的可学习性991222凸利普希茨光滑有界学习问题100123替代损失函数101124小结102125文献评注102126练习102第13章正则化和稳定性104131正则损失最小化104132稳定规则不会过拟合105133Tikhonov正则化作为稳定剂1061331利普希茨损失1081332光滑和非负损失108134控制适合与稳定性的权衡109135小结111136文献评注111137练习111第14章随机梯度下降114141梯度下降法114142次梯度1161421计算次梯度1171422利普希茨函数的次梯度1181423次梯度下降118143随机梯度下降118144SGD的变型1201441增加一个投影步1201442变步长1211443其他平均技巧1211444强凸函数*121145用SGD进行学习1231451SGD求解风险极小化1231452SGD求解凸光滑学习问题的分析1241453SGD求解正则化损失极小化125146小结125147文献评注125148练习126第15章支持向量机127151间隔与硬SVM1271511齐次情况1291512硬SVM的样本复杂度129152软SVM与范数正则化1301521软SVM的样本复杂度1311522间隔、基于范数的界与维度1311523斜坡损失*132153最优化条件与“支持向量”*133154对偶*133155用随机梯度下降法实现软SVM134156小结135157文献评注135158练习135第16章核方法136161特征空间映射136162核技巧1371621核作为表达先验的一种形式1401622核函数的特征*141163软SVM应用核方法141164小结142165文献评注143166练习143第17章多分类、排序与复杂预测问题145171一对多和一对一145172线性多分类预测1471721如何构建Ψ1471722对损失敏感的分类1481723经验风险最小化1491724泛化合页损失1491725多分类SVM和SGD150173结构化输出预测151174排序153175二分排序以及多变量性能测量157176小结160177文献评注160178练习161第18章决策树162181采样复杂度162182决策树算法1631821增益测量的实现方式1641822剪枝1651823实值特征基于阈值的拆分规则165183随机森林165184小结166185文献评注166186练习166第19章最近邻167191k近邻法167192分析16819211NN准则的泛化界1681922“维数灾难”170193效率实施*171194小结171195文献评注171196练习171第20章神经元网络174201前馈神经网络174202神经网络学习175203神经网络的表达力176204神经网络样本复杂度178205学习神经网络的运行时179206SGD和反向传播179207小结182208文献评注183209练习183第三部分其他学习模型第21章在线学习186211可实现情况下的在线分类186212不可实现情况下的在线识别191213在线凸优化195214在线感知器算法197215小结199216文献评注199217练习199第22章聚类201221基于链接的聚类算法203222k均值算法和其他代价最小聚类203223谱聚类2062231图割2062232图拉普拉斯与松弛图割算法2062233非归一化的谱聚类207224信息瓶颈*208225聚类的进阶观点208226小结209227文献评注210228练习210第23章维度约简212231主成分分析2122311当dm时一种更加有效的求解方法2142312应用与说明214232随机投影216233压缩感知217234PCA还是压缩感知223235小结223236文献评注223237练习223第24章生成模型226241极大似然估计2262411连续随机变量的极大似然估计2272412极大似然与经验风险最小化2282413泛化分析228242朴素贝叶斯229243线性判别分析230244隐变量与EM算法2302441EM是交替最大化算法2322442混合高斯模型参数估计的EM算法233245贝叶斯推理233246小结235247文献评注235248练习235第25章特征选择与特征生成237251特征选择2372511滤波器2382512贪婪选择方法2392513稀疏诱导范数241252特征操作和归一化242253特征学习244254小结246255文献评注246256练习246第四部分高级理论第26章拉德马赫复杂度250261拉德马赫复杂度概述250262线性类的拉德马赫复杂度255263SVM的泛化误差界256264低1范数预测器的泛化误差界258265文献评注259第27章覆盖数260271覆盖260272通过链式反应从覆盖到拉德马赫复杂度261273文献评注262第28章学习理论基本定理的证明263281不可知情况的上界263282不可知情况的下界2642821证明mε,δ≥05log14δε22642822证明mε,18≥8dε2265283可实现情况的上界267第29章多分类可学习性271291纳塔拉詹维271292多分类基本定理271293计算纳塔拉詹维2722931基于类的一对多2722932一般的多分类到二分类约简2732933线性多分类预测器273294好的与坏的ERM274295文献评注275296练习276第30章压缩界277301压缩界概述277302例子2783021平行于轴的矩形2783022半空间2793023可分多项式2793024间隔可分的情况279303文献评注280第31章PAC贝叶斯281311PAC贝叶斯界281312文献评注282313练习282附录A技术性引理284附录B测度集中度287附录C线性代数294参考文献297索引305
內容試閱:
前言Understanding Machine Learning:From Theory to Algorithms机器学习旨在从数据中自动识别有意义的模式。过去几十年中,机器学习成为一项常用工具,几乎所有需要从大量数据集合中提取信息的任务都在使用它。我们身边的许多技术都以机器学习为基础:搜索引擎学习在带给我们最佳的搜索结果的同时,植入可以盈利的广告;屏蔽软件学习过滤垃圾邮件;用于保护信用卡业务的软件学习识别欺诈。数码相机学习人脸识别,智能电话上的个人智能助手学习识别语音命令。汽车配备了用机器学习算法搭建的交通事故预警系统。同时机器学习还被广泛应用于各个科学领域,例如生物信息学、医药以及天文学等。这些应用领域的一个共同特点在于,与相对传统的计算机应用相比,所需识别的模式更复杂。在这些情景中,对于任务应该如何执行,人类程序员无法提供明确的、细节优化的具体指令。以智能生物为例,我们人类的许多技能都是通过从经验中学习而取得并逐步提高的(而非遵从别人给我们的具体指令)。机器学习工具关注的正是赋予程序学习和适应不同情况的能力。本书的第一个目标是,提供一个准确而简明易懂的导论,介绍机器学习的基本概念:什么是学习?机器怎样学习?学习某概念时,如何量化所需资源?学习始终都是可能的吗?我们如何知道学习过程是成功或失败?本书的第二个目标是,为机器学习提供几个关键的算法。我们提供的算法,一方面已经成功投入实际应用,另一方面广泛地考虑到不同的学习技术。此外,我们特别将注意力放到了大规模学习(即俗称的大数据)上,因为近几年来,世界越来越数字化,需要学习的数据总量也在急剧增加。所以在许多应用中,数据量是充足的,而计算时间是主要瓶颈。因此,学习某一概念时,我们会明确量化数据量和计算时间这两个数值。本书分为四部分。第一部分对于学习的基础性问题给出初步而准确的定义。我们会介绍Valiant提出的概率近似正确(PAC)可学习模型的通用形式,它将是对何为学习这一问题的第一个有力回答。我们还会介绍经验风险最小化(ERM)结构风险最小化(SRM)和最小描述长度(MDL)这几个学习规则,展现机器是如何学习的。我们量化使用ERM、SRM和MDL规则学习时所需的数据总量,并用没有免费的午餐定理说明,什么情况下学习可能会失败。此外,我们还探讨了学习需要多少计算时间。本书第二部分介绍多种算法。对于一些算法,我们先说明其主要学习原则,再介绍该算法是如何依据其原则运作的。前两部分将重点放在PAC模型上,第三部分将范围扩展到更广、更丰富的学习模型。最后,第四部分讨论最前沿的理论。我们尽量让本书能够自成一体,不过我们假设读者熟悉概率论、线性代数、数学分析和算法设计的基本概念。前三部分为计算机科学、工程学、数学和统计学研究生一年级学生设计,具有相关背景的本科生也可以使用。高级章节适用于想要对理论有更深入理解的研究者。致谢Understanding Machine Learning:From Theory to Algorithms本书以机器学习入门课程为蓝本,这门课程由Shai ShalevShwartz和Shai BenDavid分别在希伯来大学和滑铁卢大学讲授。本书的初稿由Shai ShalevShwartz在2010至2013年间在希伯来大学所开课程的教案整理而成。感谢2010年的助教Ohad Shamir和2011至2013年的助教Alon Gonen的帮助,他们为课堂准备了一些教案以及许多课后练习。特别感谢Alon在全书编写过程中所做出的贡献,此外他还撰写了一册习题答案。我们由衷地感谢Dana Rubinstein的辛勤工作。Dana从科学的角度校对了书稿,对原稿进行了编辑,将它从章节教案的形式转换成连贯流畅的文本。特别感谢Amit Daniely,他仔细阅读了本书的高级部分,并撰写了多分类可学习性的章节。我们还要感谢耶路撒冷的一个阅读俱乐部的成员们,他们认真阅读了原稿的每一页,并提出了建设性的意见。他们是:Maya Alroy, Yossi Arjevani, Aharon Birnbaum, Alon Cohen, Alon Gonen, Roi Livni, Ofer Meshi, Dan Rosenbaum, Dana Rubinstein, Shahar Somin, Alon Vinnikov和Yoav Wald。还要感谢Gal Elidan, Amir Globerson, Nika Haghtalab, Shie Mannor, Amnon Shashua, Nati Srebro和Ruth Urner参与的有益讨论。