新書推薦:
《
汗青堂丛书144·决战地中海
》
售價:HK$
168.0
《
逝去的武林(十周年纪念版 武学宗师 口述亲历 李仲轩亲历一九三零年代武人言行录)
》
售價:HK$
54.9
《
唐代冠服图志(百余幅手绘插画 图解唐代各类冠服 涵盖帝后 群臣 女官 士庶 军卫等 展现唐代社会风貌)
》
售價:HK$
87.4
《
知宋·宋代之科举
》
售價:HK$
99.7
《
那本书是(吉竹伸介与又吉直树 天才联动!)
》
售價:HK$
99.7
《
传播的跃迁:人工智能如何革新人类的交流
》
售價:HK$
110.9
《
纯粹·古代中国的历史与制度
》
售價:HK$
62.7
《
生活来来往往 别等来日方长 新版(伍佰:“讲好了这一辈子,再度重相逢。”别等,别遗憾!珍惜当下才是最好的解药)
》
售價:HK$
58.2
編輯推薦:
本书的14章可以分为4部分。前3章介绍SQL、Excel和统计学的核心概念。中间7章讨论特别适合使用SQL和Excel的数据探索和数据分析技术。在后续的3章中,从统计学和数据挖掘的角度,介绍了关于建模的更正式的思想。*后,新增的第14章讨论编写SQL查询时的性能问题。每一章都通过不同的视角,介绍使用SQL和Excel做数据分析的方方面面,包括:● 使用数据分析的基础示例● 分析师需要回答的问题● 详解数据分析技术的工作原理● 实现技术的SQL语法● 以表格或图表展示结果,以及如何在Excel中创建它们
內容簡介:
SQL是数据查询的基本语言,Excel是数据分析和展示的*常见工具。两者结合,可以组成一个强大且易于理解的业务数据分析工具。很多类重要的数据分析并不需要复杂且昂贵的数据挖掘工具。答案就在你的电脑桌上。这是一本实用指南,作者Gordon S. Linoff是数据挖掘领域的权威专家。书中介绍了如何使用SQL和Excel来设计并完成复杂的数据分析。本书的第1版被广泛认可,第2版涵盖了对SQL和Excel新功能的介绍,同时包括新的技术和实际业务示例。第2版介绍了业务经理和数据分析人员所需掌握的*信息。本书首先介绍数据挖掘所用的SQL基础知识,如何使用Excel展示结果,以及用于理解数据的简单的统计学概念。熟悉执行SQL和操作Excel后,本书介绍了核心分析技术。本书内容逐步从基础查询扩展到复杂的应用,使读者能够学习到某种数据分析的使用原因和时机,如何设计和实现,以及展示数据分析结果的强大方法。每一步都详细解释了业务环境、技术方法以及在所熟悉工具中的具体实现。随着对本书的阅读,你会发现很多知识点,包括地理信息的重要性,图表中的数据随时间的变化方式,如何使用生存分析理解客户任期和变动,以及影响生存率的因素。同时,还会探索到一些方法,包括分析客户的购买模式、分析购物车以及计算关联规则。此外,本书还包含重要的SQL数据挖掘模型线性回归模型、朴素贝叶斯模型等、建立客户签名所需的信息、用于分析结果集的模型、包含累积增量图表和ROC图表、使用SQL的*实践、提高查询性能的方法等。
關於作者:
Gordon S. Linoff从事数据库工作数十年。在他的记忆中,他开始学习SQL时,还是SQL92标准版。当时他正领导一支开发团队现已不存在的Thinking Machines公司,编写第一个侧重于复杂查询的高性能数据库,用于支持决策分析。此后,Gordon在1998年合作创建了Data Miners公司,这是一家致力于数据挖掘、分析和大数据的咨询公司。在他的工作生涯中,数据仍然是永恒的主题而且通常是存储于关系型数据库中的数据。他对SQL的理解和应用也变得越来越深刻和娴熟。在2014年,他是Stack Overflow的最多贡献者,Stack Overflow是行业内领先的技术问答网站。Gordon编写的另外几本书也都是畅销书:《数据挖掘技术第3版应用于市场营销、销售与客户关系管理》、Mastering Data Mining和Mining the Web这些书籍都侧重于数据挖掘和数据分析。本书延续广受好评的第1版,侧重于如何实际地获取和解释数据结果,更具有实践性。
目錄 :
第1章 数据挖掘者眼中的SQL 1
1.1 数据库、SQL和大数据 2
1.1.1 什么是大数据? 2
1.1.2 关系型数据库 3
1.1.3 Hadoop和Hive 3
1.1.4 NoSQL和其他类型的数据库 3
1.1.5 SQL 4
1.2 绘制数据结构 4
1.2.1 什么是数据模型? 5
1.2.2 什么是表? 5
1.2.3 什么是实体-关系图表? 8
1.2.4 邮政编码表 9
1.2.5 订阅数据集 10
1.2.6 订单数据集 11
1.2.7 关于命名的提示 12
1.3 使用数据流描述数据分析 12
1.3.1 什么是数据流? 13
1.3.2 数据流、SQL和关系代数 16
1.4 SQL查询 16
1.4.1 做什么,而不是怎么去做 16
1.4.2 SELECT语句 17
1.4.3 一个基础的SQL查询 17
1.4.4 一个基本的SQL求和查询 19
1.4.5 联接表的意义 20
1.4.6 SQL的其他重要功能 26
1.5 子查询和公用表表达式 29
1.5.1 用于命名变量的子查询 29
1.5.2 处理统计信息的子查询 32
1.5.3 子查询和IN 33
1.5.4 用于UNION ALL的子查询 37
1.6 小结 38
第2章 表中有什么?开始数据探索 39
2.1 什么是数据探索? 40
2.2 Excel中的绘图 40
2.2.1 基础图表:柱形图 41
2.2.2 单元格中的条形图 45
2.2.3 柱形图的有用变化形式 47
2.2.4 其他类型的图表 50
2.3 迷你图 53
2.4 列中包含的值 55
2.4.1 直方图 55
2.4.2 计数的直方图 58
2.4.3 计数的累积直方图 60
2.4.4 数字值的直方图频率 60
2.5 探索更多的值最小值、最大
值和模式 64
2.5.1 最小值和最大值 64
2.5.2 最常见的值模式 65
2.6 探索字符串值 66
2.6.1 长度的直方图 66
2.6.2 起始或结尾包含空白字符
的字符串 66
2.6.3 处理大小写问题 67
2.6.4 字符串中存储的字符是
什么? 67
2.7 探索两个列中的值 69
2.7.1 每个州的平均销售额
是多少? 70
2.7.2 在一个单独的订单中,产品重复
出现的频率是多少? 70
2.7.3 哪个州的American Express
用户最多? 73
2.8 由一个列的数据扩展到所有列
的数据汇总 73
2.8.1 针对单列的汇总 74
2.8.2 返回表中所有列的查询 76
2.8.3 使用SQL生成汇总编码 76
2.9 小结 78
第3章 不同之处是如何不同? 79
3.1 基本的统计学概念 80
3.1.1 虚拟假设 80
3.1.2 可信度和概率 81
3.1.3 正态分布 82
3.2 平均值的区别有多大? 85
3.2.1 方法 85
3.2.2 子集平均值的标准差 85
3.2.3 三个方法 87
3.3 对表做抽样 89
3.3.1 随机抽样 89
3.3.2 可重复的随机样本 90
3.3.3 分层比例抽样 91
3.3.4 平衡的样本 92
3.4 计数的可能性 93
3.4.1 有多少男性成员? 96
3.4.2 有多少加利福尼亚人? 98
3.4.3 虚拟假设和可信度 99
3.4.4 有多少客户仍然是活跃
客户? 100
3.4.5 比率或数字? 103
3.5 概率和它们的统计 104
3.5.1 概率的标准差 104
3.5.2 概率的置信区间 105
3.5.3 概率的不同 106
3.5.4 保守的下限值 107
3.6 卡方检验 107
3.6.1 期望值 108
3.6.2 卡方计算 108
3.6.3 卡方分布 109
3.6.4 SQL中的卡方检验 111
3.6.5 州和产品之间的特殊关系 112
3.7 月份和支付类型与不同产品
类型的特殊关系 114
3.7.1 多维卡方 114
3.7.2 使用SQL查询 115
3.7.3 结果 115
3.8 小结 116
第4章 发生的地点在何处? 119
4.1 纬度和经度 120
4.1.1 纬度和经度的定义 120
4.1.2 度数、分钟和秒 121
4.1.3 两个位置之间的距离 122
4.1.4 包含邮政编码的图片 128
4.2 人口统计 131
4.2.1 极端情况:最富有的和最贫
穷的人 132
4.2.2 分别在使用订单和不使用订
单的情况下比较邮政编码 137
4.3 地理等级 142
4.3.1 州中最富有的邮政编码 142
4.3.2 州中拥有最多订单的邮政
编码 143
4.3.3 地理数据中有趣的层级
结构 145
4.3.4 计算郡的财富 148
4.3.5 财富值的分布 150
4.3.6 在郡中,哪个邮政编码是相对
最富有的? 151
4.3.7 拥有最高的相对订单占有
份额的郡 152
4.4 在Excel中绘制地图 155
4.4.1 为什么绘制地图? 155
4.4.2 不能绘图 156
4.4.3 网络地图 156
4.4.4 邮政编码散点图之上的州
边界 157
4.5 小结 159
第5章 关于时间 161
5.1 数据库中的日期和时间 162
5.2 开始调研日期 166
5.2.1 确认日期中没有时间 166
5.2.2 根据日期比较计数 167
5.2.3 订单数和订单大小 172
5.2.4 星期 175
5.3 两个日期之间有多长? 178
5.3.1 以天为单位的持续时间 178
5.3.2 以星期为单位的持续时间 180
5.3.3 以月为单位的持续时间 180
5.3.4 有多少个星期一? 181
5.3.5 下一个周年纪念日或生日
是什么时候? 184
5.4 跨年比较 188
5.4.1 以天为单位比较 188
5.4.2 以星期为单位比较 189
5.4.3 以月为单位比较 190
5.5 以天计算活跃客户数量 196
5.5.1 某天的活跃客户数量 196
5.5.2 每天的活跃客户数量 196
5.5.3 有多少不同类型的客户? 198
5.5.4 不同任期时段的客户数量 198
5.5.5 只使用SQL计算活跃客户 201
5.6 Excel中的简单图表动画 203
5.6.1 从订单生成日期到运货
日期 203
5.6.2 订单延时在每年中的变化 205
5.7 小结 208
第6章 客户的持续时间有多久?使用
生存分析理解客户和他们的
价值 209
6.1 生存分析 210
6.1.1 平均寿命 211
6.1.2 医学研究 212
6.1.3 关于风险率的示例 212
6.2 风险计算 213
6.2.1 数据调研 214
6.2.2 风险率 216
6.2.3 客户可视化:时间与任期 217
6.2.4 截尾 219
6.3 生存率和保留率 220
6.3.1 生存率的点的估计 220
6.3.2 计算任意任期的生存率 221
6.3.3 在SQL中计算生存率 222
6.3.4 简单的客户保留率计算 225
6.3.5 保留率和生存率的区别 226
6.3.6 风险率和生存率的简单
示例 227
6.4 对比不同的客户分组 230
6.4.1 市场总结 230
6.4.2 市场分层 231
6.4.3 生存率比例 234
6.4.4 条件生存率 234
6.5 随时间变化的生存率 236
6.5.1 特定风险率随时间的变化 236
6.5.2 按照起始年份分类的客户
生存率 238
6.5.3 之前的生存率什么样? 239
6.6 由生存率衍生出来的重要
指标 241
6.6.1 估算生存点 241
6.6.2 客户任期的中间值 242
6.6.3 客户生命周期的中间值 242
6.6.4 风险率的置信度 243
6.7 使用生存率计算客户价值 245
6.7.1 估算收入 246
6.7.2 对个体的未来收入的估算 247
6.7.3 当前客户分组的收入估算 249
6.7.4 所有客户未来收入的估算 251
6.8 预测 253
6.8.1 对已有客户的预测 254
6.8.2 对新开始者的预测 258
6.9 小结 259
第7章 影响生存率的因素:客户
任期 261
7.1 哪些因素是重要的,何时
重要? 262
7.1.1 方法说明 262
7.1.2 使用平均值比较数字因素 264
7.1.3 风险比例 268
7.2 左截断 271
7.2.1 认识左截断 271
7.2.2 左截断的影响 273
7.2.3 如何从理论上解决左截断
问题 274
7.2.4 估算一个任期的风险率 275
7.2.5 估算所有任期的风险率 276
7.2.6 在SQL中计算 277
7.3 时间窗 278
7.3.1 一个商业问题 278
7.3.2 时间窗=左截断 右截尾 278
7.4 竞争风险 283
7.4.1 竞争风险的示例 283
7.4.2 竞争风险的风险率 284
7.4.3 竞争风险的生存率 286
7.4.4 随着时间的变化,客户身上
发生了什么? 287
7.5 事件前后 291
7.5.1 三种情况 291
7.5.2 使用生存率预测来理解一次
性事件 293
7.5.3 比较前后风险率 294
7.5.4 基于对列的方法 294
7.5.5 基于对列的方法:完全队列 295
7.5.6 事件影响的直接估计 297
7.6 小结 301
第8章 多次购买以及其他重复事件 303
8.1 标识客户 304
8.1.1 谁是那个客户? 304
8.1.2 其他客户信息 313
8.1.3 每一年出现多少新客户? 316
8.2 RFM分析 325
8.2.1 维度 325
8.2.2 计算RFM单元格 329
8.2.3 RFM的有用程度 330
8.3 随着时间的变化,哪些家庭的
购买金额在增长? 334
8.3.1 最早值和最晚值的比较 334
8.3.2 第一年和最后一年的值的
比较 341
8.3.3 最佳拟合线的趋势 343
8.4 距离下一次事件的时间 344
8.4.1 计算背后的想法 344
8.4.2 使用SQL计算下一次购买
日期 345
8.4.3 从下一次购买日期到时间至
事件的分析 346
8.4.4 时间到事件分析的分层 347
8.5 小结 347
第9章 购物车里有什么?购物车
分析 349
9.1 探索产品 349
9.1.1 产品的散点图 350
9.1.2 产品组的运输年份 351
9.1.3 订单中的重复产品 353
9.1.4 单位数量的直方图 358
9.1.5 在一个订单中,哪个产品可能
出现多次购买的情况? 359
9.1.6 改变价格 361
9.2 产品和客户价值 362
9.2.1 订单大小的一致性 362
9.2.2 与一次性客户关联的产品 365
9.2.3 与最好的客户相关的产品 368
9.2.4 剩余价值 370
9.3 产品的地理分布 372
9.3.1 每一个州中最常见的产品 372
9.3.2 哪些产品广受欢迎,哪些产品
只在本地受欢迎? 373
9.4 哪些客户购买了指定产品? 375
9.4.1 哪些客户拥有最受欢迎的
产品? 375
9.4.2 客户拥有哪个产品? 376
9.4.3 哪些客户有3个特定的
产品? 381
9.4.4 普遍的嵌套集合的查询 384
9.5 小结 385
第10章 关联规则 387
10.1 项集 388
10.1.1 两个产品的组合 388
10.1.2 更常见的项集 391
10.1.3 家庭,而不是订单 396
10.2 最简单的关联规则 399
10.2.1 关联和规则 400
10.2.2 零项关联规则 400
10.2.3 概率的分布情况 401
10.2.4 零项关联告诉了我们
什么? 402
10.3 单项关联规则 402
10.3.1 单项关联规则的价值 402
10.3.2 生成所有的单项规则 404
10.3.3 包含评估信息的单项
规则 405
10.3.4 基于产品组的单项规则 406
10.4 双项关联 407
10.4.1 计算双项关联 408
10.4.2 使用卡方找到最佳规则 409
10.4.3 异质相关 413
10.5 扩展关联规则 416
10.5.1 多项关联 416
10.5.2 一个查询中的多项关联 418
10.5.3 使用产品属性的规则 418
10.5.4 左右两侧项集内容不同
的规则 419
10.5.5 之前和之后:有序关联
规则 419
10.6 小结 422
第11章 SQL数据挖掘模型 423
11.1 定向数据挖掘介绍 424
11.1.1 定向模型 424
11.1.2 建模中的数据 425
11.1.3 建模应用示例 427
11.1.4 模型评估 429
11.2 相似性模型 429
11.2.1 模型是什么? 430
11.2.2 最好的邮政编码是
哪个? 430
11.2.3 基础的相似性模型 431
11.2.4 使用Z分数计算相似性
模型 433
11.2.5 邻近模型示例 434
11.3 最受欢迎产品的查找模型 435
11.3.1 最受欢迎的产品 435
11.3.2 计算最受欢迎的产品组 436
11.3.3 评估查找模型 437
11.3.4 使用调试查找模型做
预测 437
11.3.5 使用二元分类 439
11.4 用于订单大小的查找模型 440
11.4.1 最基本的模型:无维度
模型 440
11.4.2 添加一个维度 441
11.4.3 添加额外的维度 443
11.4.4 检查不稳定性 443
11.4.5 使用平均值图表评估
模型 444
11.5 用于响应率的查找模型 445
11.5.1 将整体概率作为一个
模型 445
11.5.2 探索不同的维度 446
11.5.3 模型的精准度 447
11.5.4 ROC图表和AUC 450
11.5.5 加入更多的维度 453
11.6 朴素贝叶斯模型证据模型 455
11.6.1 概率的一些概念 455
11.6.2 计算朴素贝叶斯模型 457
11.6.3 朴素贝叶斯模型:评分和
提升度 463
11.6.4 朴素贝叶斯模型和查找
模型的比较 465
11.7 小结 466
第12章 最佳拟合线:线性回归
模型 467
12.1 最佳拟合线 468
12.1.1 任期和支付金额 468
12.1.2 最佳拟合线的属性 469
12.1.3 小心数据 473
12.1.4 图表中的趋势线 474
12.1.5 使用LINEST函数的
最佳拟合 479
12.2 使用R2衡量拟合程度 483
12.2.1 R2值 483
12.2.2 R2的局限性 484
12.2.3 R2的含义 484
12.3 直接计算最佳拟合线系数 485
12.3.1 计算系数 485
12.3.2 在SQL中计算最佳
拟合线 486
12.3.3 价格弹性 487
12.4 加权的线性回归 492
12.4.1 在第一年停止的客户 492
12.4.2 加权的最佳拟合 493
12.4.3 图表中的加权最佳
拟合线 494
12.4.4 SQL中的加权最佳
拟合线 495
12.4.5 使用Solver的加权最佳
拟合线 496
12.5 多个输入 498
12.5.1 Excel中的多维回归 498
12.5.2 建立包含三个变量的
模型 500
12.5.3 使用Solver处理多维
回归 501
12.5.4 逐个选择输入变量 501
12.5.5 SQL中的多维回归 502
12.6 小结 503
第13章 为进一步分析数据创建客户
签名 505
13.1 什么是客户签名? 506
13.1.1 什么是客户? 506
13.1.2 客户签名的源数据 507
13.1.3 使用客户签名 510
13.2 设计客户签名 511
13.2.1 调试和预测 511
13.2.2 字段的角色 511
13.2.3 时间段 512
13.3 建立客户签名的操作 515
13.3.1 驱动表 515
13.3.2 查找数据 518
13.3.3 最初的交易 520
13.3.4 旋转 521
13.3.5 总结 528
13.4 抽取特征 530
13.4.1 地理位置信息 530
13.4.2 日期时间列 531
13.4.3 字符串中的模式 532
13.5 总结客户行为 534
13.5.1 计算时间序列的斜率 534
13.5.2 周末消费者 537
13.5.3 下降的使用行为 540
13.6 小结 541
第14章 性能问题:高效使用SQL 543
14.1 查询引擎和性能 544
14.1.1 用于理解性能的时间
复杂度 544
14.1.2 一个简单的示例 545
14.1.3 与性能相关的思考 547
14.1.4 性能的含义和测量 549
14.1.5 性能提升入门 549
14.2 高效使用索引 553
14.2.1 什么是索引? 553
14.2.2 索引的简单示例 557
14.2.3 索引的限制 560
14.2.4 高效使用复合索引 562
14.3 何时使用OR是低效的? 566
14.3.1 有时UNION ALL比OR
更好 566
14.3.2 有时LEFT OUTER JOIN比
OR更高效 567
14.3.3 有时多个条件表达式
更好 568
14.4 赞成和反对:表达一件事情的
不同方法 569
14.4.1 在Orders表中,哪些州
没有被识别? 569
14.4.2 一个关于GROUP BY的
难题 571
14.4.3 小心COUNT*=0 573
14.5 窗口函数 576
14.5.1 窗口函数适用于什么
地方? 576
14.5.2 窗口函数的灵活使用 576
14.6 小结 582
附录 数据库之间的等价结构 583
內容試閱 :
前言 本书的第1版使用我们熟悉的工具SQL和Excel,从实用的角度解释数据分析。这本书的指导原则是从问题出发,同时从业务角度和技术角度提供解决方案,以指导读者。这个方法被证明是非常成功的。从第1版到现在已经过去了10年,这期间已经发生了很多变化,工具本身也发生了很多变化。例如,当年的Excel还没有功能区,而且在当时的数据库中,窗口函数也非常罕见。一些工具,如Python和R,以及NoSQL数据库变得越来越常见,它们改变了分析师赖以生存的工具世界。然而,随着技术延伸到大大小小的各项业务中,关系型数据库在今天仍然被广泛使用,而且SQL也变得更加至关重要。对于很多商务人士,Excel工具仍然是做报表和展示的理想之选。大数据不再是未知的领域,它是我们每天都会面临的问题、挑战和机遇。根据底层软件的变化,在第2版中对本书的内容做了调整和更新,同时包含了更多的示例和技术,以及增加了关于数据库性能的一整章新内容。同时,我一直在努力保持本书第1版的优势。本书仍然围绕着数据、分析和展示的原则 少见地将三个功能放在一起处理。示例围绕着所提出的问题,同时讨论了这些问题的业务相关性和技术实现。示例使用的是真实的代码。数据、代码以及Excel示例都可以在配套网站上找到。撰写这本书的最初动机来源于我的一个同事 Nick Drake,他是受过培训的统计学家。曾经,他一直在寻找一本书,关于介绍如何使用SQL编写可用于数据分析的复杂查询。当时,基于SQL的书籍,要么介绍SQL的基础查询结构,要么介绍数据库的工作原理。严格地讲,没有从分析数据的角度介绍SQL的书籍,也没有基于回答数据问题的书籍。在统计学的众多书籍中,没有一本书能够面对这样一个事实提出解决方案:统计学所用的数据,多数都存储于关系型数据库中,而本书则填补了这一空白。笔者与Michael Berry一起撰写的其他关于数据挖掘的书籍,侧重于高级算法和案例学习。相比之下,本书侧重于操作方式。首先描述了存储在数据库中的数据,然后继续完成准备数据和生成结果集的过程。书中穿插的内容,是我在这个领域多年经验的结晶,解释了结果集被应用的可能方式,以及为什么有些事情有效果,而有些事情无效。书中示例非常具有实践性,它们所使用的数据都在本书的配套网站上www.wiley.comgodataanaly- sisusingsqlandexcel2e。关于数据仓库和分析数据库的一个老生常谈的话题是它们实际上没有做任何事。是的,它们存储数据,能够将不同来源的数据汇集在一起,并整理数据使数据变得清晰。是的,它们定义业务维度,存储关于客户的事务,还可能总结重要的数据是的,所有这些都非常重要!然而,数据库中的数据存储在旋转的硬盘上,而且数据在计算机内存中的数据结构非常复杂。对于如此多的数据,信息却很少。我们如何探索这些数据特别是描述客户的数据?很多关于统计学建模和数据挖掘的华丽算法都有一条简单的规则:无用输入,无用输出。即使是最复杂的技术,也只有当数据是好数据时,结果才是好的。数据是理解客户、产品以及市场的中心。本书中的章节覆盖了数据的不同方面,同时包含了SQL和Excel支持的重要的数据分析技术。这些数据分析技术的范围涵盖了很多内容,从最初的探索性数据分析到生存分析,从超市购物车分析到朴素贝叶斯模型,从简单的动画到线性回归。当然,本书不可能涵盖所有的数据分析技术。本书所介绍的方法历经时间的考验,被认为是有用的且适用于很多不同的领域。最后,只有数据和分析还不够,还必须将结果展示给正确的观众。为完整地探索数据值,需要将数据转化为故事和情景、图表、数据指标和透视图。本书内容和技术综述本书侧重于三个关键的技术领域,这些技术用于将数据转化为可操作的信息:● 关系型数据库存储数据。获取数据的最基本的语言是SQL注意,变种的SQL也用于NoSQL数据库。● Excel工作表是展示数据的最常见工具。或许,Excel最强大的功能是绘图,它能够将包含数字的列转换为图片。● 统计学是数据分析的基础。这三种技术一并介绍,是因为它们是彼此相关的。SQL回答我们如何访问数据?统计学回答:数据是如何相关的?而使用Excel可以方便地向人们展示和证明我们所发现的结论。关于数据处理的描述围绕着SQL语言。在实际业务中,Oracle、PostgresSQL、MySQL、IBM DB2,以及微软的SQL Server等都是常见的数据库,它们存储海量的业务数据事务信息。好消息是所有的关系型数据库都支持SQL作为查询语言。然而,正如英国和美国被称为是拥有共同语言的两个国家一样,每种数据库支持一些与众不同的SQL方言。附录列出了如何使用不同的SQL方言实现一些常见的功能。相似地,也有其他华丽的展示工具和专业的制图包。然而,对于一台用于工作的电脑,安装Excel或类似的电子表格工具是再常见不过的事情了。统计学和数据挖掘技术通常并不需要高级工具。其中一些非常重要的技术,可以使用SQL和Excel轻易地实现,包括生存分析、相似模型、朴素贝叶斯模型和关联规则。事实上,本书中介绍的方法通常比这些工具中的方法更强大,因为书中的方法更接近数据,因此它们更精准,而且容易定制。对这些技术的介绍涵盖了基础思想和深度扩展,这是在其他工具中所没有的内容。本书章节描述了不同的技术,在熟悉工具和数据的前提下,为数据建模和数据探索提供扎实的知识介绍。本书同时强调,当简单工具遇到瓶颈时,高级工具是非常有用的。内容结构本书的14章可以分为4部分。前3章介绍SQL、Excel和统计学的核心概念。中间7章讨论特别适合使用SQL和Excel的数据探索和数据分析技术。在后续的3章中,从统计学和数据挖掘的角度,介绍了关于建模的更正式的思想。最后,新增的第14章讨论编写SQL查询时的性能问题。每一章都通过不同的视角,介绍使用SQL和Excel做数据分析的方方面面,包括:● 使用数据分析的基础示例● 分析师需要回答的问题● 详解数据分析技术的工作原理● 实现技术的SQL语法● 以表格或图表展示结果,以及如何在Excel中创建它们SQL是一门精准的语言,以至于有时难以读懂。数据流程图通常有助于理解SQL的工作原理。这些数据流程图是SQL引擎实际处理数据的合理预测,当然,实际上的数据处理细节由数据库引擎决定。结果以表格或图表的形式展现,分布在本书的所有章节中。此外,本书强调了Excel的一些重要特征,介绍了Excel图表的一些有趣用法。每一章都有技术专栏,通常讲述某项技术的重要方面或与正文内容相关的一些有趣历史背景。章节引导第1章数据挖掘者眼中的SQL从数据分析的角度介绍SQL,这是SQL语言的查询部分,使用SELECT查询从数据库中获取数据。第1章介绍了描述数据结构的实体-关系图表、列,以及它们彼此间的关系。该章同时介绍了用于描述查询处理过程的数据流程图;通过数据流程图,能够可视化地理解数据的处理过程。本章介绍了全书中使用到的一些重要功能例如联接、聚合和窗口函数。此外,第1章还描述了全书示例所使用的数据集该数据集也可以从网站自行下载。数据包括存储零售数据的表,存储手机客户数据的表,以及其他描述邮政编码和日历的引用表。第2章表中有什么?开始数据探索介绍使用Excel做数据探索和结果展现。在Excel的众多功能中,或许最有用的功能就是绘图了。正如一句古老的中国谚语所说,百闻不如一见。Excel的绘图依据是数据。这样的图表不仅美观有用,同时在Word文档、PPT展示、电子邮件、网站中也非常实用。图表并非终点,它们只是探索数据分析的一个方面。此外,本章还介绍了在表格中汇总列,以及使用Excel生成SQL查询的有趣想法。第3章不同之处是如何不同介绍了一些描述性统计学的核心概念,例如平均值、P值和卡方检测。本章的目的是展示如何将这些技术应用于数据表中的数据上。至于这些统计学内容和统计学测试方法的选择,是由它们的实用性决定的。同时,本章侧重介绍这些知识的使用方法,而不是它们的理论内容。多数的统计学测试方法都可以使用Excel甚至SQL来实现。SQL技术一些技术非常适合使用SQL和Excel。第4章发生的地点在何处?介绍了地理数据以及如何将地理信息纳入数据分析中。地理信息首先是位置,以经度和纬度描述。位置也可以用不同等级的地理信息描述,例如人口普查区、邮政编码区域,以及其他我们熟悉的国家和省份,这些数据都可从人口统计局或是其他相似的政府机构获取。这一章也讨论了如何使用不同地理等级比较结果集。最后,不包含地图的地理信息是不完整的。使用基础的Excel功能,可以创建非常初级的地图。第5章关于时间讨论了客户行为的另一个关键特征:什么时候发生。该章描述了如何访问数据库中的日期和时间,以及如何使用这些信息来帮助理解客户。该章包含的示例,可以用于准确地比较不同年份的数据,并从历史上计算每天的活跃客户数量。该章最后介绍Excel中的一个简单的动画也是本书中唯一一处使用Visual Basic的地方。第6章和第7章介绍了用于理解客户随时间变化的最重要的数据分析技术。在传统的统计学中,生存分析根深蒂固,而且它也很适合处理与客户相关的问题。第6章客户的持续时间有多久?使用生存分析理解客户和他们的价值介绍了风险率和生存率的基本思想,解释了如何使用SQL和Excel简单地计算它们。或许令人感到惊讶的是,在使用生存分析时,并不需要复杂的统计学工具。第6章后续介绍了生存分析应用在实际业务中的重要性,例如平均客户生命周期。然后讲解如何将这些片段拼接在一起,形成对客户值计算的预测。第7章影响生存率的因素:客户任期扩展讨论三个不同的领域。第一,它解决了在以客户为中心的数据库中的重要问题:左截断left-truncation。第二,它介绍了生存分析领域中的一个非常有趣的思想:竞争风险。这个思想考虑了一个事实,即客户是因不同原因而离开的。第三,将生存分析应用在分析前和分析后。即当客户在其生命周期内发生一些事情时,我们如何量化所发生的事情,例如量化客户加入忠诚计划之后的影响,或量化一次失败的主要计费方法。第8章至第10章使用SQL和Excel介绍如何理解客户正在购买的内容。第8章多次购买以及其他重复事件介绍了关于购买事件的所有事什么时候发生,在哪里发生,发生频率除了购买的东西。该章介绍了RFM,一种理解客户购买行为的传统技术。同时介绍了随时间推移,在识别客户时的种种问题。即使是在我们查看详细的购买信息之前,我们也能发现很多关于购买的信息。在第9章购物车里有什么?购物车分析中,产品成了焦点。该章介绍了随时间推移,针对购买行为的探索性分析。该章包括了如何识别驱动客户行为的产品,同时介绍了Excel中一些有趣的可视化方法。第10章关联规则转移到对关联规则的正式讨论。关联规则是指被同时购买或按序购买的产品组合。在SQL中建立关联规则是相当复杂的。本章讨论的方法扩展了传统的关联规则分析,介绍更有效的替换指标,并展示如何生成不同事物的组合。例如,单击会导致一次购买行为使用网站的一个实例。在本章中解释的关联规则技术,比数据挖掘工具中的技术更强大,因为这里的技术是可以扩展的,并使用支持度、置信度和提升度之外的指标。建模技术接下来的3章讨论统计学和数据挖掘的建模技术和方法。第11章SQL数据挖掘模型介绍了数据挖掘的建模思想,以及建模相关的名词。同时讨论了一些重要的模型类型,这些模型适用于处理业务问题和SQL环境。相似性模型找到与给定示例相似的事物。查找模型使用查找表返回模型评分。该章同时介绍了一种更复杂的建模技术,即朴素贝叶斯模型。这门技术可以总结不同业务维度的信息来估算未知的数值。第12章最佳拟合线:线性回归模型介绍了一种更传统的统计学技术:线性回归。该章介绍了不同种类的线性回归,包括多项式回归、加权回归、多维回归和指数回归。这些内容以Excel图表的形式介绍,同时包含R2值,用于衡量模型与数据的拟合度。对回归的介绍同时用到了Excel和SQL。虽然Excel中有几种内置的功能可以处理回归问题,但Solver比这些内置功能更强大。本章从线性回归的角度介绍了SolverSolver是可与Excel绑定的免费加载项。第13章为进一步分析数据创建客户签名介绍了客户签名。客户签名是一个数据结构,它总结了客户在某个特定的时间点的数据。客户签名在建模时非常强大。在介绍该章时认识到虽然SQL和Excel都非常强大,但有时还需要一些更复杂的工具。很多情况下,客户签名是总结客户信息的正确方法,而且SQL是完成这类总结的强大工具。性能编写SQL查询的一个原因是性能通过至少完成一些分析工作,可以将已有的硬件资源分配给关系型数据库。编写一本关于通用SQL而非指定数据库的书籍,其缺点就是缺少关于特定数据库的一些技巧和提示。令人欣慰的是,很多关于编写SQL的最佳实践能够普遍提升查询在不同数据库中的执行速度。第14章性能问题:高效使用SQL致力于这个话题。其中特别讨论了索引和如何利用索引,同时还介绍了编写查询的不同方法?以及为什么有些方法的性能更好。本书读者对象本书面向不同技术等级的各类读者。技术方面不足的管理者,特别是那些负责理解客户或业务单元的管理者。通常情况下,这样的人精通Excel,然而,他们所需要的数据存储于关系型数据库中。为了帮助他们,本书中的示例提供了有用的结果集。这些示例十分详尽,不仅展示了业务问题,同时展示了技术方法和结果。另一部分读者,他们的工作是理解数据和客户,通常他们的职位描述中包含分析师字样。这些人通常使用Excel和其他工具,有时直接访问数据仓库或一些以客户为中心的数据库。本书能帮助他们提高SQL查询技巧,展示好的图表示例,以及介绍生存分析和关联规则,以便他们理解客户和业务。一部分重要的读者是数据科学家,他们精通诸如R或Python这样的工具,但是他们发现需要学习其他的工具。在业务世界中,以编程为中心的工具可能并不足以解决问题,分析师可能会发现他们不得不直接处理关系型数据库中的数据,并以Excel形式展现给用户。技术等级更高的是统计学家,他们通常使用有特殊功能的工具,例如SAS、SPSS、R和S-plus。然而,数据存储于数据库中。本书可以在SQL技术方面为他们提供帮助,并提供数据分析示例以帮助他们解决业务问题。此外,数据库管理员、数据库设计者和架构师应该会发现本书是非常有趣的。在不同章节中展示的查询,说明了人们对数据的使用方式和方法。这些查询应该可以促进数据库管理员和设计者创建更适合使用的高效数据库。建议所有的读者,即使是技术专家,阅读或至少浏览前3章内容。这些章节全部从分析海量数据的视角,介绍SQL、Excel和统计学知识。这个视角与平常所读书籍的视角不同。在这些章节中,有相当一部分的内容和想法贯穿全书,例如样本数据、数据流、SQL语法和格式转换、出色的图标绘制。需要的工具本书是独立的读者应该可以直接通过书中的内容阅读并学习。本书中的所有SQL语句都经过测试在微软SQL Server数据库上,少量查询在其他数据库PostgresSQL上测试。可以从网上下载数据集和结果,网址为www.wiley.comgodata-analysisusingsqlandexcel2e。对于想要尝试的读者,我们建议下载数据并执行书中的示例代码。本书中,多数示例是与数据库供应商无关的,因此,它们或稍作修改后应该可以在所有的关系型数据库中执行。这里不建议使用Microsoft Access或MySQL,因为它们缺少窗口函数窗口函数是分析性查询的关键功能。如果没有数据库,可以下载一些程序包;数据库供应商通常会提供一些免费的单机版本。例如,SQL Server Express是微软提供的免费SQL Server版本,Oracle也提供免费版本的Oracle数据库,可以从www.postgres.org下载PostgresSQL数据库,其他数据库也有它们的免费版本。网站内容介绍配套网站www.wiley.comgodataanalysisusingsqlandexcel2e上包含本书使用的数据集。这些数据集包含如下信息:● 引用表。共有3个引用表,其中两张表包含人口统计信息来自于人口统计局2000年的统计数据,另一张表包含关于日期的日历信息。● Subscribers数据集,用于描述移动电话公司的客户子集。● Purchases数据集,用于描述客户购买模式的数据集。下载这些数据的同时,还可以下载将数据导入SQL Server和其他数据库的使用说明。此外,配套网站的其他页面包含更多的信息。例如,将数据导入常见数据库中的脚本,包含SQL查询的工作表,以及本书中使用Excel生成的所有表格和图表。总 结本书起源于一个同事的问题,他询问是否有一本关于使用SQL做数据分析的参考书。然而,所需要的并不是简单的关于SQL的参考书,即使它侧重介绍使用SQL做数据查询的实际使用。对于数据分析,不能凭空学习SQL。一个SQL查询,不管它编写的多么精妙,通常不是一个业务问题的完整解决方案。业务问题,需要被转换为可以使用查询回答的问题。然后需要将结果展示出来,通常以表格或Excel图表的形式。笔者想要扩展这个观点。在现实世界中,也不能凭空学习统计学知识。曾经,收集数据不仅花费时间且难以操作。现在,数据量非常足够。例如,本书的配套网站,只需要轻点几下,就能上传几GB的数据。数据分析的问题不再局限于几个统计学方法,同时包括管理和抽取数据。本书将三个核心概念融入到解决问题这一条线中。在笔者的数据挖掘生涯中,笔者发现SQL、Excel和统计学是分析数据的关键性工具,比某些特殊的技术更加重要。希望本书可以帮助读者改进他们的技术,并为他们理解客户和理解业务提供新思路。