新書推薦:
《
失衡与重塑——百年变局下的中国与世界经济
》
售價:HK$
132.2
《
南方谈话:邓小平在1992
》
售價:HK$
80.6
《
纷纭万端 : 近代中国的思想与社会
》
售價:HK$
109.8
《
中国古代文体形态研究(第四版)(中华当代学术著作辑要)
》
售價:HK$
168.0
《
朋党之争与北宋政治·大学问
》
售價:HK$
99.7
《
甲骨文丛书·波斯的中古时代(1040-1797年)
》
售價:HK$
88.5
《
以爱为名的支配
》
售價:HK$
62.7
《
台风天(大吴作品,每一种生活都有被看见的意义)
》
售價:HK$
53.8
|
編輯推薦: |
数据时代的来临,使各行业对数据分析人员的需求呈现爆炸性增长,但实战能力在数据分析领域至关重要,相关人员迅速提高自身实战能力的愿望正在变得日益迫切。
《IBM SPSS数据分析实战案例精粹(第2版)》定位为实战操作参考书,是作者多年来数据分析项目实战的经验总结,目的是帮助读者能够迅速地掌握数据分析实战中的思路和方法。全书以业界领先的统计分析软件IBM SPSS Statistics为工具,提供了包括医疗、金融、保险、汽车、快速消费品、市场研究、互联网等行业共15个数据分析案例。完全基于数据分析实战的需求,详细讲解了数据分析的目标、思路、流程和具体软件实现,同时深入浅出地将数据分析模型和软件的使用介绍融于案例讲解之中,使读者在阅读时能超越方法和工具的局限,聚焦于对数据分析精髓的领悟,从而更快地提高自身的实战能力。
《IBM SPSS数据分析实战案例精粹(第2版)》适合从初学者到专家各个级别的数据分析人员阅读,尤其适用于以下读者群:需要提升实战能力的数据分析专业人员;在市场营销、金融、财务、人力资源管理中需要应用数据分析的人士;从事咨询、科研等工作的专业人士。本书也可作为各专业的本科
|
內容簡介: |
《IBM SPSS数据分析实战案例精粹第2版》以IBM SPSS Statistics 24为工具,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析挖掘案例,基于实战需求,详细讲解了整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,使读者在阅读时能突破方法和工具的限制,真正聚集于对数据分析精髓的领悟。本书还一并提供案例数据的下载,读者可完整重现全部的分析内容。 《IBM SPSS数据分析实战案例精粹第2版》适合从初学者到专家各个级别的数据分析人士阅读,包括需要提升实战能力的数据分析专业人士,在市场营销、金融、财务、人力资源管理中需要应用数据分析的人士,从事咨询、科研等工作的专业人士,同时也可以作为各专业的本科和研究生学习数据分析应用的参考书。
|
關於作者: |
张文彤
上海昊鲲企业管理咨询有限公司合伙人
复旦大学统计学博士,定量分析建模和数据挖掘专家
中国知名的SPSS专家之一,共出版过十余本统计分析和数据挖掘教材
具有丰富的数据挖掘经验、统计理论与市场研究成功结合的应用经验,服务过的客户包括沃尔玛、联合利华、欧莱雅、YUM、松下等
|
目錄:
|
第1部分 SPSS数据分析基础
第1章 数据分析方法体系简介 3
1.1 数据分析方法论概述 3
1.1.1 严格设计支持下的统计方法论 3
1.1.2 半试验研究支持下的统计方法论 4
1.1.3 偏智能化、自动化分析的数据挖掘应用方法论 5
1.2 统计软件中的数据存储格式 6
1.2.1 二维数据表 7
1.2.2 变量的存储类型 7
1.2.3 变量的测量尺度 8
1.3 数据的统计描述与参数估计 9
1.3.1 连续变量的统计描述 9
1.3.2 连续变量的参数估计 12
1.3.3 分类变量的统计描述和参数估计 14
1.3.4 统计图形体系 17
1.4 常用假设检验方法 20
1.4.1 假设检验的基本原理 21
1.4.2 单变量假设检验方法 22
1.4.3 双变量假设检验方法 24
1.5 多变量模型 28
1.5.1 方差分析模型/一般线性模型 28
1.5.2 广义线性模型和混合线性模型 29
1.5.3 回归模型 30
1.5.4 其他常见模型 33
1.6 多元统计分析模型 35
1.6.1 信息浓缩 35
1.6.2 变量组之间内在关联结构的探讨 35
1.6.3 对数据分类 36
1.6.4 分析各元素间的关联 38
1.7 智能统计分析方法/数据挖掘方法 39
1.7.1 树模型 39
1.7.2 神经网络 40
1.7.3 支持向量机 41
1.7.4 近邻元素分析 41
1.7.5 关联规则与序列分析 41
第2章 顾客售后满意度监测项目 43
2.1 案例背景 43
2.2 数据文件的读入与变量整理 44
2.2.1 了解SPSS的基本操作界面 44
2.2.2 进行数据准备 46
2.3 问卷数据分析 50
2.3.1 生成频数表 50
2.3.2 计算均值 51
2.3.3 对多选题进行描述 52
2.4 项目总结和讨论 53
第3章 会员购买习惯调查 54
3.1 案例背景 54
3.1.1 项目背景 54
3.1.2 分析思路 56
3.2 问卷录入 56
3.2.1 开放题的定义 56
3.2.2 单选题的定义 57
3.2.3 多选题的定义 57
3.3 问卷质量校验 59
3.3.1 去除重复记录 59
3.3.2 发现异常值 61
3.3.3 逻辑校验 62
3.4 问卷数据分析 64
3.4.1 问卷加权 64
3.4.2 业务分析 68
3.5 项目总结和讨论 69
第4章 基于背景资料的病例对照匹配 71
4.1 案例背景 71
4.2 数据清理 72
4.2.1 数据错误的发现 72
4.2.2 数据错误的更正 76
4.3 数据理解 77
4.4 利用文件合并功能进行案例匹配 80
4.5 利用Python插件直接进行匹配 81
4.5.1 倾向得分匹配 82
4.5.2 个案控制匹配 84
4.6 项目总结和讨论 86
第5章 北京地区雾霾变化趋势分析 87
5.1 案例背景 87
5.1.1 项目背景 87
5.1.2 分析思路 88
5.2 数据准备 89
5.2.1 读入csv格式的数据文件 89
5.2.2 合并数据文件 91
5.2.3 筛选所需数据 93
5.3 数据理解 94
5.3.1 数据分布状况 94
5.3.2 缺失值分布状况 95
5.3.3 考察逐月数据趋势 96
5.4 雾霾变化基本趋势的分析 97
5.4.1 整体平均水平的比较 97
5.4.2 重点考察秋冬季的数据 99
5.4.3 进一步分析爆表天数变化趋势 100
5.5 进一步展现历史波动趋势 101
5.5.1 逐月平均数据的提取 101
5.5.2 建模前的数据准备 102
5.5.3 用季节分解提取长期趋势 104
5.6 项目总结和讨论 107
第2部分 影响因素发现与数值预测
第6章 酸奶饮料新产品口味测试研究 111
6.1 案例背景 111
6.1.1 研究项目概况 111
6.1.2 分析思路/商业理解 112
6.2 数据理解 113
6.2.1 研究设计框架复查 113
6.2.2 均值的列表描述 114
6.2.3 均值的图形描述 115
6.3 用方差分析模型考察同一城市内不同品牌的评分差异 116
6.3.1 单因素方差分析模型简介 117
6.3.2 对品牌的作用进行总体检验 118
6.3.3 组间两两比较 120
6.3.4 对模型适用条件的考察:方差齐性检验 122
6.4 用两因素方差分析模型进行分析 123
6.4.1 两因素方差分析模型简介 123
6.4.2 拟合包括交互项的饱和模型 125
6.4.3 拟合只包含主效应的模型 125
6.4.4 组间两两比较 127
6.4.5 尝试将城市指定为随机因素进行分析 128
6.5 分析结论与讨论 130
6.5.1 分析结论 130
6.5.2 Benchmark:用还是不用 131
第7章 偏态分布的激素水平影响因素分析 132
7.1 案例背景 132
7.1.1 研究项目概况 132
7.1.2 分析思路/商业理解 133
7.2 数据理解 133
7.2.1 单变量描述 133
7.2.2 变量关联探索 136
7.3 对因变量变量变换后建模分析 141
7.3.1 常见的变量变换方法 141
7.3.2 本案例的具体操作 142
7.4 秩变换分析 145
7.5 利用Cox模型进行分析 146
7.5.1 Cox回归模型的基本原理 147
7.5.2 本案例的具体操作 148
7.6 项目总结与讨论 150
7.6.1 分析结论 150
7.6.2 八仙过海,谁为独尊 150
第8章 某车企汽车年销量预测 152
8.1 案例背景 152
8.1.1 研究项目概况 152
8.1.2 分析思路/商业理解 153
8.2 数据理解 154
8.3 变量变换后的线性回归 156
8.3.1 线性回归模型简介 156
8.3.2 变量变换后拟合线性回归模型 158
8.3.3 模型拟合效果的判断 160
8.3.4 存储预测值和区间估计值 162
8.4 曲线拟合 163
8.4.1 用曲线估计过程同时拟合多个曲线模型 163
8.4.2 模型拟合效果的判断 166
8.4.3 模型的预测 167
8.5 利用非线性回归进行拟合 168
8.5.1 模型简介 168
8.5.2 构建分段回归模型 169
8.5.3 不同模型效果的比较 171
8.6 项目总结与讨论 172
8.6.1 分析结论 172
8.6.2 行走在理想与现实之间 173
第9章 脑外伤急救后迟发性颅脑损伤影响因素分析 174
9.1 案例背景 174
9.1.1 研究项目概况 174
9.1.2 分析思路/商业理解 175
9.2 数据理解 176
9.2.1 变量关联的图表描述 176
9.2.2 变量关联的单变量检验 178
9.3 构建二分类Logistic回归模型 181
9.3.1 模型简介 181
9.3.2 初步尝试建模 183
9.3.3 构建终模型 188
9.4 利用树模型发现交互项 189
9.4.1 模型简介 190
9.4.2 进行树模型分析 192
9.5 使用广义线性过程进行分析 195
9.5.1 模型简介 195
9.5.2 构建仅包括主效应的模型 196
9.5.3 在模型中加入交互项 199
9.6 项目总结与讨论 200
9.6.1 分析结论 200
9.6.2 尺有所短,寸有所长 201
第10章 中国消费者信心指数影响因素分析 202
10.1 案例背景 202
10.1.1 项目背景 202
10.1.2 项目问卷 203
10.1.3 分析思路/商业理解 206
10.2 数据理解 207
10.2.1 图形考察时间、地域对信心 指数的影响 207
10.2.2 图形考察性别、职业、婚姻 状况等对信心指数的影响 209
10.2.3 图形考察年龄对信心指数的 影响 210
10.3 标准GLM框架下的建模分析 211
10.3.1 建立总模型 211
10.3.2 两两比较的结果 214
10.4 多元方差分析模型的结果 215
10.4.1 模型简介 216
10.4.2 拟合多元方差分析模型 217
10.5 尺度回归 223
10.5.1 方法简介 224
10.5.2 利用尺度回归进行 分析 225
10.6 多水平模型框架下的建模分析 228
10.6.1 模型简介 229
10.6.2 针对时间拟合多水平模型 230
10.7 项目总结与讨论 235
10.7.1 分析结论 235
10.7.2 什么时候应当运用复杂模型 来建模 236
|
內容試閱:
|
所谓艺术,就是指如果只靠系统学习既有的知识体系,但自身不具备相当天赋,或者没有经过长期实战操作以积累经验、激发灵感的话就始终难以登堂入室成为大师的那些学科,音乐、舞蹈、绘画等无不如此。而大英百科全书恰恰就把统计学定义为“一门收集数据、分析数据,并根据数据进行推断的艺术和科学”。显然,作为一门应用学科,统计学非常强调实战能力,一名出色的统计师需要通过经历各种各样的实战分析项目来总结经验和吸取教训以持续成长,光靠操作教科书上的那些标准案例,只能成为工匠,不能成为大师。
近年来,随着计算机技术的飞速发展,统计软件工具出现了日新月异的变化,大大提高了统计工具的可用性。分析工具的高度易用性和实战需求的同步发展,促使各行各业对统计分析和数据挖掘人员的需求呈现爆炸性增长,远远超过了正常培养周期能够提供的数量,而广大统计分析人员希望能够得到一本完全从实战操作的角度出发,而不是单纯以介绍某一种统计软件的角度出发的参考书以迅速帮助自己提升实战能力的愿望,也因之而变得更为迫切。这也是当初笔者考虑编写本书的初衷。
本书定位为实战类书籍,第1版自出版以来虽然受到了广大读者的热烈追捧,但也发现了在内容安排上仍然存在着一些不尽如人意的地方。
(1) 第1版在同一本书里同时讲解IBM SPSS Statistics和IBM SPSS Modeler 两种软件,方法体系则同时涉及传统的统计分析和数据挖掘两种体系,虽然更大范围地满足了读者需求,但也给很多读者对内容的理解和消化造成了困扰。
(2) 第1版在设计上没有太多地考虑简单方法和数据操作介绍,直接切入了综合案例,原意是希望读者学习完笔者的其余教程之后再使用本书来提高,但实际使用中,确实有很多读者将本书作为SPSS的本书使用,这样无疑增加了学习难度。
有鉴于此,在第2版中笔者将数据挖掘拆分出来单独成书,本书将专门讨论数据分析的实战案例。在修订原有案例的同时,基于IBM SPSS Statistics 24的功能补充了数据整理和描述了一些实践案例,增加了Python插件等新功能的使用操作,并增补了信效度检验等一些新的复杂案例,使初学者直接阅读本书的难度降低,而老用户则可以体会到新版软件的功能,真正做到兼顾不同的读者层次。对于不同的读者群而言,他们各自能从本书得到以下帮助。
(1) 入门:对于IBM SPSS Statistics的新用户而言,本书显然是的学习软件操作和实战技能的教科书,本书采用相应软件的版本,就统计分析中的一些典型案例进行了深入浅出的全面介绍,用户只需要按照书中的讲解顺序依次操作,就可以真正习得相应的数据分析实战操作能力。
(2) 提升:对于已经熟悉相应SPSS系列产品如何使用的老用户而言,本书就是他们渴望多年的“专家教程”,笔者在案例中真正展示的并非简单的软件操作,而是完整的统计思维和实战分析思路,已有数据分析基础的读者通过对这些案例的学习,必然能更快地跨越从理论到实战的鸿沟,从而使自己对软件工具的掌握和实战操作能力都得到真正的提升。
(3) 领悟:对资深的统计分析人员而言,其对分析工具的应用早已超越了具体某个公司的产品层面,达到“不滞于物,草木竹石皆可为剑”的地步,但本书仍然具有很高的参考价值,因为软件仅仅是实现工具,其背后的统计思维、统计方法、基本原则等都完全相同,但不同的人在面对相同问题时所采用的分析流程、处理方式等又各有千秋,通过对书中案例的学习、参照和比较,分析人员必然能够起到举一反三的效果,从而真正对实战操作达到“悟”的境地。
本书由张文彤、钟云飞、王清华共同编写,其中第1章由张文彤和钟云飞共同编写,第3章由王清华和张文彤共同编写,其余各章由张文彤编写。
希望本书能够帮助读者更加深入地了解数据分析,从而进一步促进数据分析在国内的普及。也希望广大读者能一如既往地踊跃提出自己使用中的宝贵意见和建议,使本书再版时能够更上一层楼,更完美地满足大家的学习和工作需求。
编 者
|
|