新書推薦:
《
FANUC工业机器人装调与维修
》
售價:HK$
99.7
《
吕著中国通史
》
售價:HK$
62.7
《
爱琴海的光芒 : 千年古希腊文明
》
售價:HK$
199.4
《
不被他人左右:基于阿德勒心理学的无压力工作法
》
售價:HK$
66.1
《
SDGSAT-1卫星热红外影像图集
》
售價:HK$
445.8
《
股市趋势技术分析(原书第11版)
》
售價:HK$
221.8
《
汉匈战争全史
》
售價:HK$
99.7
《
恶的哲学研究(社会思想丛书)
》
售價:HK$
109.8
|
編輯推薦: |
系统讲解数据挖掘机器学习工具Weka
经典的开源挖掘工具、开放的Java环境
初学者的入门*、研究者的钻研利器
|
內容簡介: |
本书借助代表当今数据挖掘和机器学习最高水平的著名开源软件Weka,通过大量的实践操作,使读者了解并掌握数据挖掘和机器学习的相关技能,拉近理论与实践的距离。全书共分9章,主要内容包括Weka介绍、探索者界面、知识流界面、实验者界面、命令行界面、Weka高级应用、Weka API、学习方案源代码分析和机器学习实战。
本书系统讲解Weka 3.7.13的操作、理论和应用,内容全面、实例丰富、可操作性强,做到理论与实践的统一。本书适合数据挖掘和机器学习相关人员作为技术参考书使用,也适合用作计算机专业高年级本科生和研究生的教材或教学参考用书。
|
關於作者: |
袁梅宇,男,工学博士,硕士导师,现在昆明理工大学计算机系任教。为本科生和研究生主讲Java程序设计、Java EE技术、数据库原理、人工智能、Dot Net技术等核心课程,参加过863 CIMS Net建设、中欧合作项目DRAGON和多项国家基金和省基金项目,第一作者公开发表论文十余篇,软件著作权(颁证)六项。
|
目錄:
|
目录
第1章 Weka介绍 1
1.1 Weka简介 2
1.1.1 Weka历史 3
1.1.2 Weka功能简介 3
1.2 基本概念 5
1.2.1 数据挖掘和机器学习
5
1.2.2 数据和数据集 5
1.2.3 ARFF格式 6
1.2.4 预处理 7
1.2.5 分类与回归 10
1.2.6 聚类分析 12
1.2.7 关联分析 12
1.3 Weka系统安装 13
1.3.1 系统要求 13
1.3.2 安装过程 14
1.3.3 Weka使用初步
16
1.3.4 系统运行注意事项
18
1.4 访问数据库 24
1.4.1 配置文件 25
1.4.2 数据库设置 26
1.4.3 常见问题及解决办法
27
1.5 示例数据集 28
1.5.1 天气问题 29
1.5.2 鸢尾花 30
1.5.3 CPU 31
1.5.4 玻璃数据集 32
1.5.5 美国国会投票记录
33
1.5.6 乳腺癌数据集 33
课后强化练习 34
第2章 探索者界面 35
2.1 图形用户界面 36
2.1.1 标签页简介 36
2.1.2 状态栏 37
2.1.3 图像输出 37
2.1.4 手把手教你用 37
2.2 预处理 40
2.2.1 加载数据 40
2.2.2 属性处理 43
2.2.3 过滤器 44
2.2.4 过滤器算法介绍 46
2.2.5 手把手教你用 52
2.3 分类 59
2.3.1 分类器选择 59
2.3.2 分类器训练 61
2.3.3 分类器输出 62
2.3.4 分类算法介绍 65
2.3.5 分类模型评估 79
2.3.6 手把手教你用 81
2.4 聚类 98
2.4.1 Cluster标签页的操作 98
2.4.2 聚类算法介绍 99
2.4.3 手把手教你用 101
2.5 关联 107
2.5.1 Associate标签页的操作 107
2.5.2 关联算法介绍 108
2.5.3 手把手教你用 111
2.6 选择属性 117
2.6.1 Select attributes标签页的
操作 118
2.6.2 选择属性算法介绍
119
2.6.3 手把手教你用 120
2.7 可视化 128
2.7.1 Visualize标签页 128
2.7.2 边界可视化工具
131
2.7.3 代价收益分析可视化 133
2.7.4 手把手教你用 134
课后强化练习 140
第3章 知识流界面 143
3.1 知识流介绍 144
3.1.1 知识流特性 144
3.1.2 知识流界面布局
145
3.2 知识流组件 148
3.2.1 数据源 148
3.2.2 数据接收器 151
3.2.3 评估器 155
3.2.4 可视化器 156
3.2.5 其他工具 158
3.3 使用知识流组件 160
3.4 手把手教你用 162
课后强化练习 181
第4章 实验者界面 183
4.1 简介 184
4.2 标准实验 185
4.2.1 简单实验 185
4.2.2 高级实验 190
4.2.3 手把手教你用 198
4.3 远程实验 210
4.3.1 远程实验设置 210
4.3.2 手把手教你用 213
4.4 分析结果 221
4.4.1 获取实验结果 221
4.4.2 动作 221
4.4.3 配置测试 222
4.4.4 保存结果 225
4.4.5 手把手教你用 225
课后强化练习 229
第5章 命令行界面 231
5.1 命令行界面介绍 232
5.1.1 命令调用 233
5.1.2 命令自动完成 234
5.2 Weka结构 235
5.2.1 类实例和包 235
5.2.2 weka.core包
236
5.2.3 weka.classifiers包 237
5.2.4 其他包 238
5.3 命令行选项 238
5.3.1 常规选项 239
5.3.2 特定选项 241
5.4 过滤器和分类器选项
242
5.4.1 过滤器选项 242
5.4.2 分类器选项 245
5.4.3 手把手教你用 247
5.5 包管理器 252
5.5.1 命令行包管理器
252
5.5.2 运行安装的算法
254
课后强化练习 255
第6章 Weka高级应用 257
6.1 贝叶斯网络 258
6.1.1 简介 258
6.1.2 贝叶斯网络编辑器
261
6.1.3 在探索者界面中使用贝叶斯
网络 269
6.1.4 结构学习 270
6.1.5 分布学习 272
6.1.6 查看贝叶斯网络
273
6.1.7 手把手教你用 276
6.2 神经网络 286
6.2.1 GUI使用 286
6.2.2 手把手教你用 289
6.3 文本分类 293
6.3.1 文本分类示例 294
6.3.2 分类真实文本 298
6.3.3 手把手教你用 300
6.4 时间序列分析及预测
306
6.4.1 使用时间序列环境
306
6.4.2 手把手教你用 318
课后强化练习 326
第7章 Weka API 327
7.1 加载数据 328
7.1.1 从文件加载数据
328
7.1.2 从数据库加载数据 329
7.1.3 手把手教你用 330
7.2 保存数据 335
7.2.1 保存数据至文件
335
7.2.2 保存数据至数据库
335
7.2.3 手把手教你用 336
7.3 处理选项 339
7.3.1 选项处理方法 339
7.3.2 手把手教你用 340
7.4 内存数据集处理 341
7.4.1 在内存中创建数据集
341
7.4.2 打乱数据顺序 345
7.4.3 手把手教你用 345
7.5 过滤 349
7.5.1 批量过滤 350
7.5.2 即时过滤 351
7.5.3 手把手教你用 351
7.6 分类 355
7.6.1 分类器构建 355
7.6.2 分类器评估 356
7.6.3 实例分类 358
7.6.4 手把手教你用 359
7.7 聚类 370
7.7.1 聚类器构建 370
7.7.2 聚类器评估 371
7.7.3 实例聚类 373
7.7.4 手把手教你用 373
7.8 属性选择 379
7.8.1 使用元分类器 380
7.8.2 使用过滤器 380
7.8.3 使用底层API
381
7.8.4 手把手教你用 381
7.9 可视化 384
7.9.1 ROC曲线 385
7.9.2 图 385
7.9.3 手把手教你用 386
7.10 序列化 391
7.10.1 序列化基本方法
391
7.10.2 手把手教你用
392
7.11 文本分类综合示例
395
7.11.1 程序运行准备
395
7.11.2 源程序分析 396
7.11.3 运行说明 403
课后强化练习 404
第8章 学习方案源代码分析 405
8.1 NaiveBayes源代码分析 406
8.2 实现分类器的约定 427
课后强化练习 429
第9章 机器学习实战 431
9.1 数据挖掘过程概述 432
9.1.1 CRISP-DM过程
432
9.1.2 数据预处理 433
9.1.3 挖掘项目及工具概述
434
9.2 实战KDD Cup
1999 434
9.2.1 任务描述 435
9.2.2 数据集描述 436
9.2.3 挖掘详细过程 438
9.3 实战KDD Cup
2010 447
9.3.1 任务描述 447
9.3.2 数据集描述 447
9.3.3 挖掘详细过程 450
9.3.4 更接近实际的挖掘过程
459
课后强化练习 471
附录A 中英文术语对照 472
附录B Weka算法介绍 476
过滤器算法介绍 476
分类算法介绍 498
聚类算法介绍 526
关联算法介绍 530
选择属性算法介绍 532
参考文献 537
|
內容試閱:
|
第2章 探索者界面
探索者Explorer界面是Weka的主要图形用户界面,其全部功能都可通过菜单选择或表单填写进行访问。本章介绍探索者的图形用户界面、预处理、分类、聚类、关联、选择属性和可视化等内容,内容非常丰富,学习这些知识可以全面了解Weka的功能,快速上手实际的挖掘任务。
2.1 图形用户界面
启动Weka GUI 选择器窗口之后,单击Explorer按钮,即可启动探索者界面。这时,由于没有加载数据集,除Preprocess标签页外,其他标签页都变灰而不可用。可以使用Open file、Open URL、Open DB或者Generate按钮加载或产生数据集,加载数据集之后,其他标签页才可以使用。
这里以打开文件为例进行说明。单击Open file按钮,通过弹出的打开对话框,选择打开data子目录下的iris.arff文件,加载数据集后的探索者界面如图2.1所示。
图2.1 探索者界面
下面按照先整体后局部的顺序介绍图形用户界面。
2.1.1 标签页简介
图2.1所示界面的顶部有六个不同的标签页,分别对应Weka所支持的多种数据挖掘方式。
这六个标签页的介绍如下。
1 Preprocess预处理:选择数据集,并以不同方式对其进行修改。
2 Classify分类:训练用于分类或回归的学习方案,并对其进行评估。
3 Cluster聚类:学习数据集聚类方案。
4 Associate关联:学习数据关联规则,并对其进行评估。
5 Select attributes选择属性:选择数据集中预测效果最好的部分属性。
6 Visualize可视化:查看不同的二维数据散点图,并与其进行互动。
每个标签页都可完成不同工作,单击相应的标签即可实现标签页的切换。
界面底部包括Status状态栏、Log日志按钮和一只Weka鸟,这些都一直保持可见,不论用户切换到哪一个标签页。
2.1.2 状态栏
状态栏位于界面最下部,可以让用户了解到现在进行到哪一步。例如,如果Weka探索者正在忙于加载数据文件,状态栏中会显示相应的状态信息。
除了显示状态之外,还可以右击鼠标来显示内存信息,以及运行垃圾回收器以清理内存。在状态栏的任意位置右击,弹出的快捷菜单中只包括两个菜单项:Memory information内存信息和Run garbage collector运行垃圾回收器。第一个菜单项用于显示Weka当前可用的内存空间;第二个菜单项用于启动Java垃圾回收器,搜寻不再使用的内存并释放,以回收部分内存空间,提供给新的任务使用。需要指出的是,垃圾回收器是一个不间断运行的后台任务,如果不强制进行垃圾回收,Java虚拟机也会在适当时候自动启动垃圾回收器。
Log按钮位于状态栏的右面,单击该按钮会打开可以滚动的日志窗口,显示在此次运行期间内Weka 进行的全部活动以及每项活动的时间戳。不管是使用GUI、命令行还是Simple CLI,日志都会包含分类、聚类、属性选择等操作的完整的设置字符串,用户可以进行复制和粘贴操作。顺便提醒读者,通过学习日志里记录的命令,可以深层次地了解Weka的内部运行机制。
在Log按钮的右边,可以看到被称为Weka状态图标的鸟。如果没有处理过程在运行,小鸟会坐下来打个盹。符号旁边的数字显示目前有多少个正在进行处理的进程,当系统空闲时,该数字为零,数字会随着正在进行处理进程数的增加而增加。当启动处理进程时,小鸟会站起来不停走动。如果小鸟长时间站着不动,说明Weka出现运行错误,此时用户需要关闭并重新启动探索者界面。
2.1.3 图像输出
Weka中显示的大部分图形,包括本章的探索者界面和后面章节的知识流界面、实验者界面显示的图形,以及通过Weka
GUI选择器菜单带出的GraphVisualizer图可视化工具或TreeVisualizer树可视化工具显示的图形,都可以保存为图像文件以备将来使用。保存方法是,在按住Alt键和Shift键的同时,在要保存的图形上单击,启动保存文件对话框。Weka支持的图像文件格式有BMP、JPEG、PNG和Postscript的EPS,用户可以选择图像文件格式,还可以修改输出图像文件的尺寸。
2.1.4 手把手教你用
1. 启动Weka
双击桌面上的Weka 3.7快捷方式,启动Weka GUI选择器窗口,如图2.2所示。
单击Explorer按钮启动探索者界面,如图2.3所示。现在,除Preprocess标签页可用外,其余标签页都不可用。
图2.2 Weka GUI选择器窗口
图2.3 探索者界面
2. 了解标签页
单击图2.3所示界面中的Open file按钮,弹出打开对话框,导航至Weka安装目录下的data子目录,选择iris.arff文件,如图2.4所示。单击打开按钮,打开该文件。
图2.4 打开对话框
打开文件或称为加载数据后的探索者界面如图2.5所示。可以看到,加载数据后,六个标签页都变为可用状态。
图2.5 打开文件后的探索者界面
读者可以自行切换标签页,初步了解各标签页的功能,为后续学习打下基础。
3. 了解状态栏
不论切换到哪个标签页,都可在探索者界面下部的状态栏中查看状态信息。在状态栏任意位置右击,在弹出的快捷菜单中选择Memory
information菜单项,状态栏显示用斜杠分割的内存信息,格式为:空闲内存全部内存最大内存,单位是字节,如图2.6所示。
图2.6 内存信息
如果在快捷菜单中选择Run garbage collector菜单项,状态栏中会显示OK信息,表示已经启动了垃圾回收器,如图2.7所示。
图2.7 运行垃圾回收器
单击状态栏右边的Log按钮,可以查看当前日志,如图2.8所示。
图2.8 日志窗口
4. 保存图像文件
单击图2.5所示界面右边的Visualize All全部可视化按钮,打开如图2.9所示的全部可视化窗口。
图2.9 全部可视化窗口
同时按住Alt键和Shift键,并在图2.9所示的五幅图标中任选一图标,在图标的任意位置单击,启动Save as对话框。设置文件名为test,选择文件类型为jpg或其他格式,单击保存按钮,就可将其保存为图像文件,如图2.10所示。
图2.10 Save as对话框
在图2.10的右边,还可以定制图像文件的长、宽尺寸,单位为像素。选中Use custom dimensions使用自定义尺寸复选框,就可以设置图像尺寸。如果选中Keep aspect ratio保持宽高比复选框,则在修改图像长或宽的同时,会按比例自动缩放宽或长。
|
|