新書推薦:
《
算法图解(第2版)
》
售價:HK$
78.2
《
科学的奇幻之旅
》
售價:HK$
77.3
《
画艺循谱:晚明的画谱与消闲
》
售價:HK$
143.4
《
新民说·现实政治史:从马基雅维利到基辛格
》
售價:HK$
99.7
《
宽容是件奢侈品(人生360度·一分钟经典故事)
》
售價:HK$
44.6
《
甲骨拼合六集
》
售價:HK$
333.8
《
视觉美食家:商业摄影实战与创意解析
》
售價:HK$
132.2
《
中国经济发展的新阶段:机会与选择
》
售價:HK$
99.7
|
內容簡介: |
数据科学和机器学习是当今技术领域中*的流行语。本书将带您进行一次数据驱动的旅程,从基础的R和机器学习开始,逐步建立用于解决实际问题的项目的概念。本书共8章。第1章介绍R及其相关的基础知识,并简单介绍了机器学习的概念。第2章深入研究机器学习,介绍各种类型的学习算法,以及一些现实世界的案例。第3章使用市场购物篮分析和关联规则挖掘进行电子商务产品推荐、预测和模式分析。第4章分析不同用户对电子商务产品的评论和评级,使用算法和技术(例如用户协同过滤器)设计一个推荐系统。第5章将机器学习应用于信用风险检测和预测中。第6章使用多种机器学习算法检测和预测哪些客户具有潜在信用风险,介绍了多种有监督学习算法并比较它们的性能。第7章介绍社交媒体和通过TwitterAPI收集数据的过程。第8章根据TwitterAPI的知识建立一个项目,基于该项目分析推文中的情感。
|
目錄:
|
Contents?目录
译者序
前言
关于作者
关于审稿人
第1章 开始使用R语言和机器学习1
1.1 探究R的基本内容2
1.1.1 使用R作为科学计算器2
1.1.2 向量运算3
1.1.3 特殊值5
1.2 R的数据结构5
1.2.1 向量6
1.2.2 数组和矩阵8
1.2.3 列表13
1.2.4 数据框16
1.3 使用函数20
1.3.1 内置函数20
1.3.2 用户自定义函数20
1.3.3 以参数形式传递函数21
1.4 控制代码流22
1.4.1 使用if、if-else和ifelse语句22
1.4.2 使用switch语句23
1.4.3 循环23
1.5 高级结构24
1.5.1 lapply和sapply函数25
1.5.2 apply函数26
1.5.3 tapply函数27
1.5.4 mapply函数28
1.6 进一步使用R29
1.6.1 获得帮助29
1.6.2 处理添加包30
1.7 机器学习基础30
1.7.1 机器学习真正的含义是什么30
1.7.2 机器学习如何应用于现实世界31
1.7.3 机器学习算法的类型32
1.8 总结33
第2章 让我们进行机器学习34
2.1 理解机器学习35
2.2 机器学习算法35
2.3 算法家族40
2.3.1 有监督学习算法41
2.3.2 无监督学习算法52
2.4 总结57
第3章 应用市场购物篮分析预测顾客购买趋势58
3.1 检测和预测趋势59
3.2 市场购物篮分析60
3.2.1 市场购物篮分析的真正含义60
3.2.2 核心概念和定义60
3.2.3 用于分析的技术62
3.2.4 制定数据驱动的决策63
3.3 评估产品列联矩阵63
3.3.1 获取数据64
3.3.2 分析和可视化数据65
3.3.3 整体推荐66
3.3.4 高级列联矩阵67
3.4 频繁项集的生成69
3.4.1 开始69
3.4.2 数据检索和转换69
3.4.3 建立项集关联矩阵70
3.4.4 建立频繁项集生成工作流72
3.4.5 检测购物趋势74
3.5 关联规则挖掘75
3.5.1 加载添加包和数据76
3.5.2 探索性分析76
3.5.3 检测和预测购物趋势77
3.5.4 关联规则可视化80
3.6 总结80
第4章 建立产品推荐系统82
4.1 理解推荐系统83
4.2 推荐系统存在的问题83
4.3 协同过滤器84
4.3.1 核心概念和定义84
4.3.2 协同过滤算法85
4.4 建立推荐引擎87
4.4.1 矩阵分解88
4.4.2 算法实现90
4.4.3 解释结果94
4.5 产品推荐引擎实战95
4.5.1 提取、转换并分析数据96
4.5.2 模型准备和预测99
4.5.3 模型评价100
4.6 总结102
第5章 信用风险检测和预测描述分析103
5.1 分析的类型104
5.2 我们将要面临的挑战104
5.3 什么是信用风险105
5.4 获取数据105
5.5 数据处理107
5.5.1 处理缺失值107
5.5.2 数据类型转换108
5.6 数据分析和变换109
5.6.1 建立分析实用函数110
5.6.2 分析数据集113
5.6.3 保存变换后的数据集130
5.7 接下来的步骤130
5.7.1 建立特征集130
5.7.2 选择机器学习算法131
5.8 总结131
第6章 信用风险检测和预测预测分析133
6.1 预测分析134
6.2 如何预测信用风险135
6.3 预测模型中的重要概念137
6.3.1 准备数据137
6.3.2 建立预测模型137
6.3.3 评估预测模型138
6.4 获取数据140
6.5 数据处理141
6.6 特征选择142
6.7 应用逻辑回归建立模型144
6.8 应用支持向量机建立模型148
6.9 应用决策树建立模型156
6.10 应用随机森林建立模型161
6.11 应用神经网络建立模型165
6.12 模型比较和选择169
6.13 总结171
第7章 社交媒体分析:分析Twitter数据172
7.1 社交网络(Twitter)172
7.2 数据挖掘与社交网络174
7.2.1 挖掘社交网络数据175
7.2.2 数据和可视化176
7.3 从Twitter API开始179
7.3.1 概览179
7.3.2 注册应用180
7.3.3 链接认证181
7.3.4 提取推文示例182
7.4 Twitter数据挖掘183
7.4.1 常用词汇和关联186
7.4.2 广泛使用的设备191
7.4.3 层次聚类192
7.4.4 主题建模194
7.5 社交网络数据挖掘带来的挑战197
7.6 参考文献198
7.7 总结198
第8章 Twitter数据的情感分析200
8.1 理解情感分析201
8.1.1 情感分析的关键概念201
8.1.2 方法204
8.1.3 应用205
8.1.4 挑战206
8.2 推文中的情感分析206
8.2.1 极性分析208
8.2.2 基于分类的算法212
8.3 总结223
|
內容試閱:
|
Preface?前言数据科学和机器学习是当今技术领域中的顶级流行语。从零售商店到世界500强企业,每个人都在努力使用机器学习从庞大的数据中获得有价值的信息,以发展其业务。借助强大的数据处理功能、丰富的机器学习包和活跃的开发者社区,R使用户能够构建复杂的机器学习系统,解决现实世界中的数据问题。
本书将带你踏上数据驱动的旅程,从最基础的R和机器学习开始,逐步学习如何解决实际问题。
本书内容第1章概述本书的内容,帮助你熟悉R及其基础知识。该章还简短地介绍机器学习。
第2章通过解释机器学习的基本概念,深入研究机器学习。同时,还呈现各种类型的学习算法,以及现实世界中的一些示例。
第3章开始介绍第一个项目的第一部分,使用各种机器学习技术进行电子商务产品推荐、预测和模式分析。该章针对市场购物篮分析和关联规则挖掘,检测客户的购物模式和趋势,使用这些技术进行产品预测和推荐。这些技术在零售企业和电子商务商店(例如Target、Macys、Flipkart和Amazon)中广泛使用,用来进行产品推荐。
第4章介绍第一个项目(电子商务产品推荐、预测和模式分析)的第二部分。该章分析不同用户对电子商务产品的评论和评级,使用算法和技术(例如,用户协同过滤)设计一个推荐系统。
第5章开始介绍第二个项目,将机器学习应用到一个复杂的金融场景中,即处理信用风险检测和预测。该章介绍新的主题,研究1000名向银行申请贷款的用户的金融信用数据集。我们将使用机器学习技术检测具有潜在信用风险以及贷款后可能无法偿还的用户,同时对未来进行预测。该章还详细介绍数据集及其主要特征,讨论处理数据时将面临的主要挑战。最后总结适合解决这一问题的最佳机器学习技术。
第6章基于上一章的描述分析继续进行预测分析。这里,我们将使用几种机器学习算法来检测和预测哪些客户具有潜在信用风险,即贷款后可能无法偿还的用户。这最终将帮助银行做出数据驱动的决策,决定是否批准贷款申请。我们将涵盖几种有监督学习算法,并比较它们的性能。我们将讨论评估各种机器学习算法的性能和准确度的不同指标。
第7章介绍社交媒体分析。首先,我们将介绍社交媒体和通过Twitter的API收集数据的过程。该章将引导你从推文(tweet)中挖掘有用的信息(包括可视化实际案例的Twitter数据),推文的聚类和主题建模,解决这些问题面临的挑战、复杂度和策略。我们通过例子展示如何使用Twitter数据计算一些强大的度量指标。
第8章根据Twitter API的知识建立一个项目,基于该项目分析推文中的情感。这个项目呈现了多种机器学习算法,用于根据推文的情感进行分类。该章还对这些结果进行比较,帮助你理解这些算法的工作原理和运行结果之间的差异。
本书需要的软硬件支持以下软件适用于本书的所有章节:
WindowsMac OS XLinuxR 3.2.0(或以上)RStudio Desktop 0.99(或以上)对于硬件,没有特定的要求,因为R能在任何Mac、Linux或Windows系统的个人计算机上运行,但是物理内存最好不低于4GB,这样一些迭代算法可以更快地运行。
本书适用对象如果你对使用先进的技术从数据中挖掘有用信息来进行数据驱动决策感兴趣,那么本书将指导你如何实现。虽然R的基本知识非常有用,但是在阅读本书时,不需要掌握数据科学的先验经验。掌握机器学习的先验知识十分有用,但这不是必要的。
本书约定正文中的码字、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输入和Twitter句柄如下所示:我们可以使用include命令包括其他上下文。
命令行的输入或输出如下所示:
新的术语(new term)和重要词(important word)以粗体显示。
警告或者重要注释。
提示和技巧。
下载示例代码你可以在网站http:www.packtpub.com上从你的账户中下载本书的示例代码文件。如果你在其他地方购买了这本书,你可以访问http:www.packtpub.comsupport网站并注册,就可以通过电子邮件方式获得相关的文件。
你也可以访问华章图书官网:http:www.hzbook.com,通过注册并登录个人账号,下载本书的源代码。
下载本书的彩图我们还在一个PDF文件中向你提供了本书中屏幕截图和图表的彩色版本。彩色图片可以帮助你更好地理解输出中的变化关系。可以从http:www.packtpub.com sitesdefaultfilesdownloadsMachine_Learning_With_R_Second_Edition_ ColoredImages.pdf下载这个文件。
|
|