新書推薦:
《
汗青堂丛书138·帝国的切口:近代中国口岸的冲突与交流(1832-1914)
》
售價:HK$
127.4
《
人世事,几完缺 —— 啊,晚明
》
售價:HK$
115.6
《
樊树志作品:重写明晚史系列(全6册 崇祯传+江南市镇的早期城市化+明史十二讲+图文中国史+万历传+国史十六讲修订版)
》
售價:HK$
498.0
《
真谛全集(共6册)
》
售價:HK$
1156.4
《
敦煌通史:魏晋北朝卷
》
售價:HK$
162.3
《
唯美手编16:知性优雅的编织
》
售價:HK$
54.9
《
情绪的惊人力量:跟随内心的指引,掌控情绪,做心想事成的自己
》
售價:HK$
50.4
《
棉的全球史(历史·文化经典译丛)
》
售價:HK$
109.8
|
編輯推薦: |
兰兹编著的《机器学习与R语言》共12章:第1章介绍机器学习的基本概念和理论,并介绍用于机器学习的R软件环境的准备;第2章介绍如何应用R来管理数据,进行数据的探索分析和数据可视化;第3~9章介绍典型的机器学习算法,包括k近邻分类算法、朴素贝叶斯算法、决策树和规则树、回归预测、黑盒算法一一神经网络和支持向量机、关联分析、k均值聚类,并给出大量的实际案例和详细的分析步骤,例如乳腺癌的判断、垃圾短信的过滤、贷款违约的预测、毒蘑菇的判别、医疗费用的预测、建筑用混凝土强度的预测、光学字符的识别、超市购物篮关联分析以及市场细分等;第10章介绍模型性能评价的原理和方法,第11章给出提高模型性能的几种常用方法;第12章讨论用R进行机器学习时可能遇到的一些高级专题,如特殊形式的数据、大数据集的处理、并行计算和CPU计算等技术。
|
內容簡介: |
R本身是一款十分优秀的数据分析和数据可视化软件。《机器学习与R语言》通过将实践案例与核心的理论知识相结合,提供了你开始将机器学习应用到你自己项目中所需要的知识。《机器学习与R语言》主要内容:机器学习的基本概念和理论,用于机器学习的R软件环境;如何应用R来管理数据,进行数据的探索分析和数据可视化;典型的机器学习算法和案例,并给出了详细的分析步骤;模型性能评价的原理和方法;提高模型性能的几种常用方法;其他机器学习主题。《机器学习与R语言》适用于任何希望使用数据来采取行动的人。读者只需要具有R的一些基本知识,不需要具备机器学习的深厚基础。不管是R初学者,还是熟练的R用户都能从书中找到对自己有用的内容。
|
關於作者: |
作者:(美)兰兹 译者:李洪成 译者:许金炜 译者:李舰
Brett Lantz,在应用创新的数据方法来理解人类的行为方面有10余年经验。他最初是一名社会学家,在学习一个青少年社交网站分布的大型数据库时,他就开始陶醉于机器学习。从那时起,他致力于移动电话、医疗账单数据和公益活动等交叉学科的研究,并维护dataspeIunking.com这个网站,该网站致力于分享有关探寻数据中所蕴含的洞察的知识。李洪成,统计学博士,现为上海金融学院副教授,是SPSS统计分析软件和R语言专家。他的研究方向为金融统计和数据挖掘。他曾出版多本著作,并在专业杂志发表多篇论文,代表著作有《SPSS18数据分析基础与实践》、《SPSS数据分析教程》、《时间序列预测实践教程》,译著有《R语言经典实例》、《数据挖掘与R语言》、《金融数据分析导论:基于R语言》等。
|
目錄:
|
推荐序
译者序
前言
致谢
关于技术评审人
第1章机器学习简介
1.1机器学习的起源
1.2机器学习的使用与滥用
1.3机器如何学习
1.3.1抽象化和知识表达
1.3.2一般化
1.3.3评估学习的成功性
1.4将机器学习应用于数据中的步骤
1.5选择机器学习算法
1.5.1考虑输入的数据
1.5.2考虑机器学习算法的类型
1.5.3为数据匹配合适的算法
1.6使用R进行机器学习
1.7总结
第2章数据的管理和理解
2.1R数据结构
2.2向量
2.3因子
2.3.1列表
2.3.2数据框
2.3.3矩阵和数组
2.4用R管理数据
2.4.1保存和加载R数据结构
2.4.2用CSV文件导入和保存数据
2.4.3从SQL数据库导入数据
2.5探索和理解数据
2.5.1探索数据的结构
2.5.2探索数值型变量
2.5.3探索分类变量
2.5.4探索变量之间的关系
2.6总结
第3章懒惰学习——使用近邻分类
3.1理解使用近邻进行分类
3.1.1kNN算法
3.1.2为什么kNN算法是懒惰的
3.2用kNN算法诊断乳腺癌
3.2.1第1步——收集数据
3.2.2第2步——探索和准备数据
3.2.3第3步——基于数据训练模型
3.2.4第4步——评估模型的性能
3.2.5第5步——提高模型的性能
3.3总结
第4章概率学习——朴素贝叶斯分类
4.1理解朴素贝叶斯
4.1.1贝叶斯方法的基本概念
4.1.2朴素贝叶斯算法
4.2例子——基于贝叶斯算法的手机垃圾短信过滤
4.2.1第1步——收集数据
4.2.2第2步——探索和准备数据
4.2.3数据准备——处理和分析文本数据
4.2.4第3步——基于数据训练模型
4.2.5第4步——评估模型的性能
4.2.6第5步——提升模型的性能
4.3总结
第5章分而治之——应用决策树和规则进行分类
5.1理解决策树
5.1.1分而治之
5.1.2C5.0决策树算法
5.2例子——使用C5.0决策树识别高风险银行贷款
5.2.1第1步——收集数据
5.2.2第2步——探索和准备数据
5.2.3第3步——基于数据训练模型
5.2.4第4步——评估模型的性能
5.2.5第5步——提高模型的性能
5.3理解分类规则
5.3.1独立而治之
5.3.2单规则(1R)算法
5.3.3RIPPER算法
5.3.4来自决策树的规则
5.4例子——应用规则学习识别有毒的蘑菇
5.4.1第1步——收集数据
5.4.2第2步——探索和准备数据
5.4.3第3步——基于数据训练模型
5.4.4第4步——评估模型的性能
5.4.5第5步——提高模型的性能
5.5总结
第6章预测数值型数据——回归方法
6.1理解回归
6.1.1简单线性回归
6.1.2普通最小二乘估计
6.1.3相关系数
6.1.4多元线性回归
6.2例子——应用线性回归预测医疗费用
6.2.1第1步——收集数据
6.2.2第2步——探索和准备数据
6.2.3第3步——基于数据训练模型
6.2.4第4步——评估模型的性能
6.2.5第5步——提高模型的性能
6.3理解回归树和模型树
6.4例子——用回归树和模型树估计葡萄酒的质量
6.4.1第1步——收集数据
6.4.2第2步——探索和准备数据
6.4.3第3步——基于数据训练模型
6.4.4第4步——评估模型的性能
6.4.5第5步——提高模型的性能
6.5总结
第7章黑箱方法——神经网络和支持向量机
7.1理解神经网络
7.1.1从生物神经元到人工神经元
7.1.2激活函数
7.1.3网络拓扑
7.1.4用后向传播训练神经网络
7.2用人工神经网络对混凝土的强度进行建模
7.2.1第1步——收集数据
7.2.2第2步——探索和准备数据
7.2.3第3步——基于数据训练模型
7.2.4第4步——评估模型的性能
7.2.5第5步——提高模型的性能
7.3理解支持向量机
7.3.1用超平面分类
7.3.2寻找最大间隔
7.3.3对非线性空间使用核函数
7.4用支持向量机进行光学字符识别
7.4.1第1步——收集数据
7.4.2第2步——探索和准备数据
7.4.3第3步——基于数据训练模型
7.4.4第4步——评估模型的性能
7.4.5第5步——提高模型的性能
7.5总结
第8章探寻模式——基于关联规则的购物篮分析
8.1理解关联规则
8.2例子——用关联规则确定经常一起购买的食品杂货
8.2.1第1步——收集数据
8.2.2第2步——探索和准备数据
8.2.3第3步——基于数据训练模型
8.2.4第4步——评估模型的性能
8.2.5第5步——提高模型的性能
8.3总结
第9章寻找数据的分组——k均值聚类
9.1理解聚类
9.1.1聚类——一种机器学习任务
9.1.2k均值聚类算法
9.1.3用k均值聚类探寻青少年市场细分
9.1.4第1步——收集数据
9.1.5第2步——探索和准备数据
9.1.6第3步——基于数据训练模型
9.1.7第4步——评估模型的性能
9.1.8第5步——提高模型的性能
9.2总结
第10章模型性能的评价
10.1度量分类方法的性能
10.1.1在R中处理分类预测数据
10.1.2深入探讨混淆矩阵
10.1.3使用混淆矩阵度量性能
10.1.4准确度之外的其他性能评价指标
10.1.5性能权衡的可视化
10.2评估未来的性能
10.2.1保持法
10.2.2交叉验证
10.2.3自助法抽样
10.3总结
第11章提高模型的性能
11.1调整多个模型来提高性能
11.2使用元学习来提高模型的性能
11.2.1理解集成学习
11.2.2bagging
11.2.3boosting
11.2.4随机森林
11.3总结
第12章其他机器学习主题
12.1分析专用数据
12.1.1用RCurl添加包从网上获取数据
12.1.2用XML添加包读写XML格式数据
12.1.3用rjson添加包读写JSON
12.1.4用xlsx添加包读写MicrosoftExcel电子表格
12.1.5生物信息学数据
12.1.6社交网络数据和图数据
12.2提高R语言的性能
12.2.1处理非常大的数据集
12.2.2使用并行处理来加快学习过程
12.2.3GPU计算
12.2.4部署最优的学习算法
12.3总结
|
內容試閱:
|
序言
你可能以多种方式接触过机器学习的输出结果。当你阅读电子邮件时,垃圾邮件可能已经被某个机器学习算法(很可能是贝叶斯算法)过滤掉了;当你在网页上浏览时,你可能会看到一些广告,它们是由机器学习算法预测出的可能会吸引你的广告;当你申请贷款或者信用卡时,申请的批准与否取决于机器学习模型的输出结果;当有人盗取了你的信用卡,发卡银行希望当该卡被用于欺诈消费时他们部署的机器学习算法能够识别出该类偷盗消费。
在早些时候,具有机器学习的预测模型只有很昂贵的统计软件才涉及,它们经常和咨询服务一起作为数据挖掘系统的一部分。R软件出现之后,小公司、初创公司,甚至个人都开始应用机器学习。现在,很多面向数据的大公司主要依靠像R软件这样的开源工具来部署他们的机器学习应用。
本书既可以作为你了解机器学习应用的商业背景的指南,也可以作为应用R来实现机器学习方法的指导。
|
|