新書推薦:
《
《全面与进步跨太平洋伙伴关系协定》国有企业条款研究
》
售價:HK$
101.2
《
银行业架构网络BIAN(全球数字化时代金融服务业框架)(数字化转型与创新管理丛书)
》
售價:HK$
101.2
《
金托邦:江湖中的沉重正义
》
售價:HK$
62.1
《
易经今解:释疑·解惑·见微
》
售價:HK$
90.9
《
东欧史(全二册)-“中间地带”的困境
》
售價:HK$
227.7
《
虚拟资本:金融怎样挪用我们的未来
》
售價:HK$
79.4
《
刻意练习不生气
》
售價:HK$
40.3
《
大宋理财:青苗法与王安石的金融帝国(全彩插图本)
》
售價:HK$
112.7
編輯推薦:
从《数据挖掘:概念、模型、方法和算法》第1 版出版以来的7年中,数据挖掘领域在开发新技术和拓展其应用范围方面有了长足的进步。正是数据挖掘领域中的这些变化,令笔者下定决心修订本书的第1 版,出版第2版。本版的核心内容并没有改变,但汇总了这个快速变化的领域中的*进展,呈现了数据挖掘在学术研究和商业应用领域的*尖端技术。与第1 版相比,*显著的变化是添加了如下内容:??一些新主题,例如集成学习、图表挖掘、时态、空间、分布式和隐私保护等的数据挖掘;??一些新算法,例如分类递归树CART,DBSCAN Density-Based Spatial Clustering of Applications with Noise、BIRCHBalanced and Iterative Reducing and Clustering Using Hierarchies、PageRank、AdaBoost、支持向量机SVM、Kohonen 自组织映射SOM和潜在语义索引LSI;??详细介绍数据挖掘过程的实用方面和商用理解,讨论验证、部署、数据理解、因果关系、安全和隐私等重要问题;??比较数据挖掘模型的一些量化
內容簡介:
随着数据集规模和复杂度的持续上升,分析员必须利用更高级的软件工具来执行间接的、自动的智能化数据分析。《数据挖掘:概念、模型、方法和算法第2版》介绍了通过分析高维数据空间中的海量原始数据来提取用于决策的新信息的尖端技术和方法。本书开篇阐述数据挖掘原理,此后在示例的引导下详细讲解起源于统计学、机器学习、神经网络、模糊逻辑和演化计算等学科的具有代表性的、*前沿的挖掘方法和算法。本书还着重描述如何恰当地选择方法和数据分析软件并合理地调整参数。每章末尾附有复习题。本书主要用作计算机科学、计算机工程和计算机信息系统专业的研究生数据挖掘教材,高年级本科生或具备同等教育背景的读者也完全可以理解本书的所有主题。本书特色◆ 介绍支持向量机SVM和Kohonen映射◆ 讲解DBSCAN、BIRCH和分布式DBSCAN聚类算法◆ 介绍贝叶斯网络,讨论图形中的Betweeness和Centrality参数测量算法◆ 分析在建立决策树时使用的CART算法和基尼指数◆ 介绍Bagging & Boosting集成学习方法,并详述AdaBoost算法◆ 讨论Relief以及PageRank算法◆ 讨论文本挖掘的潜在语义分析LSA,并分析如何测定文本文档之间的语义相似性◆ 讲解时态、空间、Web、文本、并行和分布式数据挖掘等新主题◆ 更详细地讲解数据挖掘技术商业、隐私、安全和法律方面的内容
關於作者:
Mehmed Kantardzic博士是美国路易维尔大学工学院计算机工程与科学系的教授,任该系的研究生院院长和数据挖掘实验室主任。Mehmed是IEEE、ISCA和SPIE的成员,曾受邀参加多个重要的学术会议;他已出版多本书籍,在许多期刊上发表过论文,其中有多篇论文获奖。
目錄 :
目录第1章 数据挖掘的概念 11.1 概述 11.2 数据挖掘的起源 31.3 数据挖掘过程 41.4 大型数据集 71.5 数据仓库 101.6 数据挖掘的商业方面:为什么数据挖掘项目会失败 131.7 本书结构安排 151.8 复习题 161.9 参考书目 17第2章 数据准备 192.1 原始数据的表述 192.2 原始数据的特性 232.3 原始数据的转换 242.3.1 标准化 242.3.2 数据平整 252.3.3 差值和比率 252.4 丢失数据 262.5 时间相关数据 272.6 异常点分析 302.7 复习题 352.8 参考书目 38第3章 数据归约 413.1 大型数据集的维度 413.2 特征归约 433.2.1 特征选择 443.2.2 特征提取 483.3 Relief算法 503.4 特征排列的熵度量 513.5 主成分分析 533.6 值归约 553.7 特征离散化:ChiMerge技术 583.8 案例归约 613.9 复习题 633.10 参考书目 64第4章 从数据中学习 674.1 学习机器 684.2 统计学习原理 724.3 学习方法的类型 754.4 常见的学习任务 774.5 支持向量机 804.6 kNN:最近邻分类器 904.7 模型选择与泛化 924.8 模型的评估 954.9 90%准确的情形 1004.9.1 保险欺诈检测 1014.9.2 改进心脏护理 1024.10 复习题 1034.11 参考书目 104第5章 统计方法 1075.1 统计推断 1075.2 评测数据集的差异 1095.3 贝叶斯定理 1125.4 预测回归 1145.5 方差分析 1185.6 对数回归 1205.7 对数-线性模型 1215.8 线性判别分析 1245.9 复习题 1265.10 参考书目 128第6章 决策树和决策规则 1316.1 决策树 1326.2 C4.5算法:生成决策树 1346.3 未知属性值 1396.4 修剪决策树 1426.5 C4.5算法:生成决策规则 1436.6 CART算法和Gini指标 1466.7 决策树和决策规则的局限性 1486.8 复习题 1506.9 参考书目 153第7章 人工神经网络 1557.1 人工神经元的模型 1567.2 人工神经网络的结构 1597.3 学习过程 1617.4 使用ANN完成的学习任务 1647.4.1 模式联想 1647.4.2 模式识别 1647.5 多层感知机 1667.6 竞争网络和竞争学习 1727.7 SOM 1747.8 复习题 1787.9 参考书目 180第8章 集成学习 1838.1 集成学习方法论 1848.2 多学习器组合方案 1878.3 bagging和boosting 1888.4 AdaBoost算法 1898.5 复习题 1908.6 参考书目 193第9章 聚类分析 1959.1 聚类的概念 1959.2 相似度的度量 1989.3 凝聚层次聚类 2039.4 分区聚类 2069.5 增量聚类 2089.6 DBSCAN算法 2119.7 BIRCH 算法 2139.8 聚类验证 2159.9 复习题 2159.10 参考书目 218第10章 关联规则 22110.1 购物篮分析 22210.2 Apriori 算法 22310.3 从频繁项集中得到关联规则 22510.4 提高Apriori算法的效率 22610.5 FP增长方法 22710.6 关联分类方法 22910.7 多维关联规则挖掘 23110.8 复习题 23210.9 参考书目 236第11章 Web挖掘和文本挖掘 23711.1 Web挖掘 23711.2 Web内容、结构与使用挖掘 23811.3 HITS和LOGSOM算法 24011.4 挖掘路径遍历模式 24511.5 PageRank算法 24711.6 文本挖掘 24911.7 潜在语义分析 25211.8 复习题 25511.9 参考书目 257第12章 数据挖掘高级技术 25912.1 图挖掘 25912.2 时态数据挖掘 27012.2.1 时态数据表示 27112.2.2 序列之间的相似性度量 27412.2.3 时态数据模型 27612.2.4 数据挖掘 27712.3 空间数据挖掘SDM 28112.4 分布式数据挖掘DDM 28412.5 关联并不意味着存在因果关系 29012.6 数据挖掘的隐私、安全及法律问题 29512.7 复习题 29912.8 参考书目 300第13章 遗传算法 30313.1 遗传算法的基本原理 30413.2 用遗传算法进行优化 30513.2.1 编码方案和初始化 30613.2.2 适合度估计 30613.2.3 选择 30713.2.4 交叉 30813.2.5 突变 30813.3 遗传算法的简单例证 31013.3.1 表述 31013.3.2 初始群体 31113.3.3 评价 31113.3.4 交替 31213.3.5 遗传算子 31213.3.6 评价第二次迭代 31313.4 图式 31413.5 旅行推销员问题 31613.6 使用遗传算法的机器学习 31813.6.1 规则交换 32013.6.2 规则概化 32013.6.3 规则特化 32113.6.4 规则分割 32113.7 遗传算法用于聚类 32113.8 复习题 32313.9 参考书目 324第14章 模糊集和模糊逻辑 32714.1 模糊集 32714.2 模糊集的运算 33214.3 扩展原理和模糊关系 33514.4 模糊逻辑和模糊推理系统 33914.5 多因子评价 34214.6 从数据中提取模糊模型 34414.7 数据挖掘和模糊集 34914.8 复习题 35014.9 参考书目 352第15章 可视化方法 35315.1 感知和可视化 35315.2 科学可视化和信息可视化 35415.3 平行坐标 35915.4 放射性可视化 36115.5 使用自组织映射进行可视化 36315.6 数据挖掘的可视化系统 36515.7 复习题 36815.8 参考书目 369附录A 数据挖掘工具 371附录B 数据挖掘应用 393
內容試閱 :
从《数据挖掘:概念、模型、方法和算法第2版》第1版出版以来的7年中,数据挖掘领域在开发新技术和拓展其应用范围方面有了长足
的进步。正是数据挖掘领域中的这些变化,令笔者下定决心修订《数据挖掘:概念、模型、方法和算法第2版》的第1版,出版第2版。
本版的核心内容并没有改变,但汇总了这个快速变化的领域中的最新进展,呈现了数据挖掘在学术研究和商业应用领域的最尖端技术。
与第1版相比,最显著的变化是添加了如下内容:l 一些新主题,例如集成学习、图表挖掘、时态、空间、分布式和隐私保护等的数据挖掘;l 一些新算法,例如分类递归树CART,DBSCAN Density-Based Spatial Clustering of Applications with Noise、BIRCH
Balanced and Iterative Reducing and Clustering Using Hierarchies、PageRank、AdaBoost、支持向量机SVM、Kohonen自组织
映射SOM和潜在语义索引LSI;l 详细介绍数据挖掘过程的实用方面和商用理解,讨论验证、部署、数据理解、因果关系、安全和隐私等重要问题;l 比较数据挖掘模型的一些量化方式方法,例如ROC曲线、增益图、ROI图、McNemar测试和K折交叉验证成对t测试。这是一本教材,所以还增加了一些新习题。这一版也更新了附录中的内容,包含了最近几年的新成果,还反映了某个新主题得到人们的
重视时发生的变化。笔者感谢在课堂上使用《数据挖掘:概念、模型、方法和算法第2版》第1版的所有同行,以及支持我、鼓励我和提出建议的所有人,
并在新版中采纳了这些建议。笔者真诚地感谢数据挖掘实验室和计算机科学系中的所有同事和同学们,感谢他们审读《数据挖掘:概念
、模型、方法和算法第2版》,并提出了许多有益的建议。特别感谢研究生Brent Wenerstrom、Chamila Walgampaya和Wael Emara,他
们耐心地校对这个新版本,讨论新章节中的内容,还做了许多校正和增补。Joung Woo Ryu博士还帮助笔者完成了文字、所有新增图和表
格的终稿,笔者对此表示最诚挚的感谢。《数据挖掘:概念、模型、方法和算法第2版》是面向在校生、毕业生、研究人员和相关从业人员的一本极具价值的指南。《数据挖掘
:概念、模型、方法和算法第2版》介绍的广泛主题可以帮助读者了解数据挖掘对现代商业、科学甚至整个社会的影响。另外,可从http:www.tupwk.com.cndownpage下载《数据挖掘:概念、模型、方法和算法第2版》的汇总参考书目。
Mehmed Kantardzic作于路易斯维尔