新書推薦:
《
世界文明中的作物迁徙:聚焦亚洲、中东和南美洲被忽视的本土农业文明
》
售價:HK$
99.7
《
无端欢喜
》
售價:HK$
76.2
《
股票大作手操盘术
》
售價:HK$
53.8
《
何以中国·何谓唐代:东欧亚帝国的兴亡与转型
》
售價:HK$
87.4
《
一间只属于自己的房间 女性主义先锋伍尔夫代表作 女性精神独立与经济独立的象征,做自己,比任何事都更重要
》
售價:HK$
44.6
《
泉舆日志 幻想世界宝石生物图鉴
》
售價:HK$
134.2
《
养育女孩 : 官方升级版
》
售價:HK$
50.4
《
跨界:蒂利希思想研究
》
售價:HK$
109.8
|
編輯推薦: |
《机器学习在线:解析阿里云机器学习平台》以机器学习中的典型案例为主线,条分缕析梳理阿里云的平台功能,讲解如何用阿里云的机器学习平台来实现各类应用,包括商家作弊检测、生存预测、信用风险预测、用户购买行为预测等,并完整地介绍了机器学习的基本原理与实践技巧。
|
內容簡介: |
以机器学习中的典型案例为主线,条分缕析梳理阿里云的平台功能,讲解如何用阿里云的机器学习平台来实现各类应用,包括商家作弊检测、生存预测、信用风险预测、用户购买行为预测等,并完整地介绍了机器学习的基本原理与实践技巧。
|
關於作者: |
2004年获南开大学数学博士学位;随后在南开大学信息学院从事博士后研究工作;2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。著有《重构大数据统计》。
|
目錄:
|
第1章阿里云机器学习1
1.1产品特点1
1.2名词解释2
1.3构建机器学习实验3
1.3.1新建实验3
1.3.2使用组件搭建工作流4
1.3.3运行实验、查看结果5
1.3.4模型部署、在线预测6
第2章商家作弊行为检测7
2.1数据探索8
2.2建模、预测和评估15
2.3尝试其他分类模型19
2.4判断商家作弊24
第3章生存预测27
3.1数据集一27
3.1.1特征分析28
3.1.2生存预测33
3.2数据集二36
3.2.1随机森林模型39
3.2.2朴素贝叶斯模型47
第4章信用风险预测50
4.1整体流程53
4.1.1特征哑元化54
4.1.2特征重要性57
4.2模型效果评估61
4.3减少模型特征的个数62
第5章用户购买行为预测65
5.1数据探索66
5.2思路68
5.2.1用户和品牌的各种特征69
5.2.2二分类模型训练71
5.3计算训练数据集71
5.3.1原始数据划分72
5.3.2计算特征74
5.3.3计算标签89
5.4二分类模型训练90
5.4.1正负样本配比90
5.4.2逻辑回归算法92
5.4.3随机森林算法94
第6章聚类与分类96
6.1数据可视化97
6.2K-Means聚类98
6.2.1聚类、评估流程100
6.2.2聚成两类101
6.2.3聚成三类103
6.3K最近邻算法104
6.3.1使用KNN算法进行分类105
6.3.2算法比较108
6.4多分类模型109
6.4.1使用朴素贝叶斯算法109
6.4.2使用逻辑回归多分类算法112
6.4.3使用随机森林算法115
6.4.4各多分类模型效果对比118
第7章葡萄酒品质预测119
7.1数据探索120
7.2线性回归123
7.3GBDT回归125
第8章文本分析127
8.1分词128
8.2词频统计130
8.3单词的区分度131
8.4字符串比较133
8.5抽取关键词、关键句139
8.5.1原理简介139
8.5.2完整流程141
8.6主题模型146
8.6.1LDA模型147
8.6.2新闻的主题模型149
8.6.3数据预处理150
8.6.4主题与原始分类的关系153
8.7单词映射为向量160
8.7.1相近单词162
8.7.2单词聚类165
8.8组件使用小结168
第9章基于用户退货描述的赔付预测170
9.1思路171
9.2训练集的特征生成173
9.3测试集的特征生成180
9.4模型训练、预测、评估181
9.5提高召回率185
第10章情感分析189
10.1词袋模型190
10.1.1训练集的特征生成192
10.1.2测试集的特征生成196
10.1.3模型训练、预测、评估197
10.2词向量模型200
10.2.1特征生成201
10.2.2模型训练206
第11章影片推荐211
11.1协同过滤212
11.2整体流程213
11.3预处理,过滤出好评信息215
11.4计算影片间的相似度215
11.5计算用户可能喜欢的影片221
11.6查看推荐效果224
第12章支持深度学习框架227
12.1TensorFlow组件简介227
12.2Softmax模型231
12.3深度神经网络234
附录A237
|
內容試閱:
|
前言
飞速发展的互联网、物联网每时每刻都在产生大量的数据,数据的价值也因此被提升到前所未有的高度:越来越多的人投身数据分析的领域,希望通过机器学习及深度学习,从数据中获取更大的价值。另一方面,云计算的蓬勃发展极大地扩展了数据的存储能力,它使计算可以同时使用成百上千台机器,快速解决问题,而在计算完成后,又能及时释放掉资源,控制成本。
在这样的大背景下,机器学习算法平台也获得了飞速发展,积累了大量高效的机器学习算法组件,基于这些组件我们可以快速实现业务流程,解决具体问题。在为本书定书名时,受到王坚博士《在线》一书的影响,觉得用在线一词来说明目前机器学习平台的状态非常恰当:丰富的算法功能可以在线使用、不需要购买硬件、不需要安装配置各种环境;数据和计算资源一直处在在线状态,不必担心数据太大或计算资源不足的问题。
阿里云机器学习算法平台不仅在阿里集团内部使用,也已对阿里集团外部开放,读者可以通过阿里云官网试用或使用本书中介绍的功能。
机器学习平台提供了一个舞台,主角是其上面的近百种算法。本书的重点放在这些算法的使用上通过实际的数据和具体的场景,帮助读者理解各算法所擅长处理的问题;另外,本书是根据机器学习的知识点由浅入深来逐步组织的,以降低阅读本书的门槛,使读者对所学的内容能产生清晰的印象。
在具体章节的组织上,阿里云机器学习平台的介绍占两个章节,即第1章和附录A。第1章为平台简介,在内容组织上尽量减少文字说明,将最基本的内容用图例来表示;附录A介绍了些琐碎但重要的事情,像如何试用、如何上传数据以及预处理函数的详细说明。第2章至第12章是按照机器学习的知识点逐步深入的思路来编排的。分类模型是机器学习理论和应用方面的重头,首先是数值类型特征的二分类模型、扩展特征的类型、多分类模型;之后介绍聚类模型;然后是回归模型;再后面介绍文本分析领域的应用(主题模型、向量化、关键词等),根据文本描述进行预测、情感分析,并以电影数据为例,搭建推荐系统。深度学习的内容放在第12章,围绕TensorFlow框架组件,介绍了一个能体现TensorFlow特点的Softmax模型的例子,然后介绍了使用深度学习DNN分类器的例子。
机器学习平台降低了我们使用机器学习知识的门槛,将各个算法作为组件,即使不了解其背后的理论知识,读者仍然可以仿照书中实例,将组件连接起来解决一些实际问题。希望本书能帮助读者在机器学习的实践中学习。
最后,感谢一起研发阿里云机器学习平台的各位同事!感谢家人的理解和支持!
杨旭
2017年7月
|
|