新書推薦:
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:HK$
66.1
《
周易
》
售價:HK$
44.6
《
东南亚的传统与发展
》
售價:HK$
67.2
《
乾隆制造
》
售價:HK$
87.4
《
资治通鉴臣光曰辑存 资治通鉴目录(司马光全集)(全二册)
》
售價:HK$
304.4
《
明代社会变迁时期生活质量研究
》
售價:HK$
316.2
《
律令国家与隋唐文明
》
售價:HK$
76.7
《
现代吴语的研究(中华现代学术名著3)
》
售價:HK$
65.0
|
編輯推薦: |
“CDA数据分析师系列丛书”依照数据分析师规范化学习体系而定。满足了CDA数据分析师等级认证学习的需要,也兼顾了大数据的热点动态。从策划之初一直坚持以“读者需求”为主线,结合企业实际案例和业务场景来谈大数据思维和小数据分析。实现技术扎实,业务精通,策略接地气!
|
內容簡介: |
《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》作为SAS EG 和SPSS 数据处理比较的首本实战中文教材,本书并非单纯地逐个讲解菜单的操作,而是将数据分析的基本思路、流程融入到软件的操作之中。每章通过设置商业背景,配以SAS EG 和SPSS 的实战演练,讲解形式更贴近读者的实际工作,使读者真正理解数据分析、数据处理的精髓。本书除讲解软件操作,还同时介绍了对应菜单操作的SAS 程序语言实现过程,读者可以根据自己的需要逐步学习,进而走进用SAS 程序处理数据的大门。
|
關於作者: |
经管之家(www.jg.com.cn):原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内最大的经济、管理、金融、统计类的在线教育和咨询网站,也是国内最活跃和最具影响力的经管类网络社区。经管之家从2006年起在国内最早开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供最优质、最科学、最系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDA CLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。徐筱刚,统计学硕士。拥有近十年的丰富的数据分析、数据挖掘实战经验,曾就职于咨询公司、金融机构等多家著名企业,目前在一家金融机构担任资深数据分析顾问,具有零售、电信、金融等多个数据挖掘的项目经验和行业背景。常国珍,北京大学商学博士,法学硕士。曾就职于亚信科技BOC部门、方正国际金融事业部、德勤管理咨询信息技术系统咨询部。SAS公司资深讲师,Oracle大数据讲师,多家金融信息部门和金融高科技公司数据挖掘技术顾问。从事征信数据集市与信用风险建模、客户价值提升等数据挖掘项目。擅长基于个体行为分析的价值发现和信用建模。研究方向为宏微观接合研究,兴趣点在于宏观环境变化对微观主体行为的经济后果分析及价值投资。丁亚军,曲阜师范大学心理学硕士。现任职于南京上度市场咨询数据分析总监,经管之家数据分析研究院数据分析师。主要从事市场调查,数据挖掘咨询等市场客户行为方面的数据分析工作,比较熟悉SAS、SPSS两款软件。
|
目錄:
|
第1 章 软件入门介绍 .. 11.1 SAS EG 介绍 .. 21.1.1 SAS EG 简介 . 21.1.2 SAS EG 的窗口及菜单 . 31.2 SPSS 介绍 . 41.2.1 SPSS 简介 .. 41.2.2 SPSS 窗口及菜单 51.3 数据挖掘的流程介绍 . 91.3.1 KDD 介绍 91.3.2 CRISP-DM .. 101.3.3 SEMMA . 111.3.4 三种数据挖掘流程的比较 .. 111.4 课后练习 . 11第2 章 使用数据 .. 122.1 通过SAS 逻辑库访问数据 .. 132.1.1 商业背景 .. 132.1.2 SAS 相关功能介绍 .. 132.1.3 EG 菜单解决方案 . 142.1.4 SAS 程序实现 . 152.1.5 SPSS 菜单解决方案 .. 162.2 理解SAS 与SPSS 数据集的定义 192.2.1 理解数据集的含义 .. 192.2.2 商业背景 .. 192.2.3 SAS 与SPSS 相关概念介绍 .. 192.2.4 EG 菜单解决方案 . 252.2.4 SAS 程序实现 . 262.2.5 SPSS 菜单解决方案 282.3 导入其他格式的数据文件 302.3.1 商业背景 .. 302.3.2 SAS 相关功能介绍 .. 302.3.3 EG 菜单解决方案 . 312.3.4 SAS 程序实现 . 332.3.5 SPSS 菜单解决方案 352.4 数据来源 . 362.4.1 直接来源 .. 362.4.2 间接来源 .. 372.5 扩展阅读 . 372.6 课后练习 . 38第3 章 探索性数据分析及数据的清理 393.1 探索性数据分析 . 403.1.1 基本理论讲解 . 403.1.2 EG 菜单解决方案 . 403.1.3 SPSS 菜单解决方案 443.2 数据清理介绍 .. 543.2.1 商业背景 .. 543.2.2 需要清理的数据类型 . 553.3 类别变量的清理 . 573.3.1 EG 菜单解决方案 . 573.3.2 SAS 程序实现 . 613.3.3 SPSS 菜单解决方案 623.4 数值型变量的清理 663.4.1 EG 菜单解决方案 . 663.4.2 SAS 程序实现 . 703.4.3 SPSS 菜单解决方案 713.5 正态分布的验证 . 753.5.1 商业背景 .. 753.5.2 相关理论介绍 . 753.5.3 EG 菜单解决方案 . 753.5.4 SAS 程序实现 . 783.5.5 SPSS 菜单解决方案 803.6 扩展阅读 . 833.7 课后练习 . 84第4 章 数据的行处理 . 854.1 数据筛选 . 864.1.1 商业背景 .. 864.1.2 相关理论介绍 . 864.1.3 EG 菜单解决方案 . 864.1.4 SAS 程序实现 . 884.1.5 SPSS 菜单解决方案 934.2 排序与求秩 944.2.1 商业背景 .. 944.2.2 理论介绍 .. 954.2.3 EG 菜单解决方案 . 954.2.4 SAS 程序实现 .. 1014.2.5 SPSS 菜单解决方案 . 1034.3 抽样 1054.3.1 商业背景 1054.3.2 抽样理论介绍 .. 1054.3.3 EG 菜单解决方案 .. 1084.3.4 SAS 程序实现 .. 1104.3.5 SPSS 菜单解决方案 . 1114.4 数据分组和汇总 .. 1114.4.1 商业背景 1114.4.2 EG 菜单解决方案 .. 1114.4.3 SAS 程序实现 .. 1134.4.4 SPSS 菜单解决方案 . 1134.5 扩展阅读 .. 1154.6 课后练习 .. 115第5 章 数据的列处理 .. 1165.1 计算新变量 . 1175.1.1 商业背景 1175.1.2 EG 菜单解决方案 .. 1175.1.3 SPSS 菜单解决方案 . 1205.2 拆分列 .. 1235.2.1 商业背景 1235.2.2 EG 菜单解决方案 .. 1235.2.3 SPSS 菜单解决方案 . 1255.3 堆叠列 .. 1285.3.1 商业背景 1285.3.2 EG 菜单解决方案 .. 1295.3.3 SPSS 菜单解决方案 . 1315.4 转置列 .. 1365.4.1 商业背景 1365.4.2 EG 菜单解决方案 .. 1365.4.3 SAS 程序实现 .. 1385.4.4 SPSS 菜单解决方案 . 1395.5 函数及运算符的使用 1405.5.1 运算符 . 1405.5.2 SAS 函数 1425.5.3 常用SPSS 函数与SAS 函数的对应关系 1505.6 对列重编码 . 1515.6.1 商业背景介绍 .. 1515.6.2 EG 菜单解决方案 .. 1515.6.3 SAS 程序实现 .. 1555.6.4 SPSS 菜单解决方案 . 1575.7 标准化 .. 1585.7.1 商业背景 1585.7.2 相关理论介绍 .. 1595.7.3 EG 菜单实现 . 1595.7.4 SAS 实现程序 .. 1615.7.5 SPSS 菜单解决方案 . 1625.8 扩展阅读 .. 1635.9 课后练习 .. 163第6 章 数据集的操作 .. 1646.1 纵向连接 .. 1656.1.1 商业背景 1656.1.2 相关的理论 1656.1.3 EG 菜单解决方案 .. 1656.1.4 SAS 程序实现 .. 1686.1.5 SPSS 菜单解决方案 . 1726.2 横向连接 .. 1746.2.1 商业背景 1746.2.2 相关理论介绍 .. 1746.2.3 EG 菜单解决方案 .. 1746.2.4 SAS 程序实现 .. 1786.2.5 SPSS 菜单解决方案 . 1826.3 数据集的比较 1836.3.1 商业背景介绍 .. 1836.3.2 相关理论介绍 .. 1836.3.3 EG 菜单解决方案 .. 1836.3.4 SAS 程序实现 .. 1866.3.5 SPSS 菜单解决方案 . 1876.4 创建格式 .. 1916.4.1 商业背景 1916.4.2 相关理论介绍 .. 1916.4.3 EG 菜单解决方案 .. 1936.4.4 SAS 程序实现 .. 1966.5 删除数据集和格式 . 1976.5.1 EG 菜单解决方案 .. 1976.5.2 SAS 程序实现 .. 1986.6 扩展阅读 .. 1986.7 课后练习 .. 199第7 章 数据的展示:图形及报告的编制 2007.1 数据可视化与图表 . 2017.1.1 商业背景 2017.1.2 相关理论介绍 .. 2017.1.3 EG 菜单解决方案 .. 2047.1.4 SPSS 菜单解决方案 . 2077.2 创建Listing 报表 . 2087.2.1 商业背景 2087.2.2 相关理论介绍 .. 2087.2.3 EG 菜单解决方案 .. 2097.2.4 SAS 程序实现 .. 2127.2.5 SPSS 菜单解决方案 . 2137.3 扩展阅读 .. 2167.4 课后练习 .. 216第8 章 在SAS EG 中使用提示和条件处理 .. 2178.1 提示与宏变量 2188.1.1 商业背景 2188.1.2 相关的理论介绍 . 2188.1.3 EG 菜单解决方案 .. 2198.2 条件处理 .. 2238.2.1 商业背景 2238.2.2 EG 菜单解决方案 .. 2238.3 扩展阅读 .. 227第9 章 在SAS EG 中使用程序 .. 2289.1 如何在SAS EG 中使用程序 2299.2 SAS 程序 2319.2.1 SAS 语言元素 .. 2319.2.2 DATA 步 . 2329.2.3 PROC 步 . 2339.2.4 SAS 的模块介绍(图9-9) . 2349.3 扩展阅读 .. 234第10 章 SQL 语言基础与MySQL 入门 . 23510.1 SQL 语言概况与MySQL 的安装 23610.1.1 SQL 语言概况 23610.1.2 MySQL 安装 .. 23710.1.3 MySQL 内创建数据库 . 23810.2 查询语句 23810.2.1 简单查询并对数据过滤与排序 .. 24010.2.2 用表达式创建新列 . 24110.2.3 对列重编码 . 24210.2.4 在查询中对数据分组和汇总 24310.2.5 表的横向连接和子查询 .. 24410.2.6 子查询 .. 25010.2.7 集合操作语句 25110.3 创建表或视图 . 25210.3.1 创建表 .. 25210.3.2 创建视图 . 252附录A SAS EG 菜单对应关系 254附录B SPSS 菜单对应关系表 256附录C SAS 和SPSS 关键术语、命令对应关系 258附录D CDA 数据分析师致力于最好的数据分析人才建设 . 261参考文献 265
|
內容試閱:
|
需要清理的数据类型缺失值(Missing)〈1〉缺失值的来源在数据收集阶段,没有收集到相关的信息,原因可能是问卷收集者忘记询问,或者碍于隐私原因,应答者没有回答。也有可能不同数据库之间对接时产生缺失。〈2〉缺失值的处理方式?忽略观测值,当数据量较大,而缺失值较少,忽略观测值对分析结果影响不大时,可以采用这种方式;人工填写,找到缺失值的关系,通过人工调查得到并填写缺失值,当缺失值量比较大时不适用;使用一个全局常量来填写缺失值;使用属性的中心度量(如均值和中位数)来填充缺失值;单独作为一类。〈3〉缺失值在SAS 中的表现方式?数值型的为“.”;?字符型的缺失值为空。异常值〈1〉异常值(Outlier)异常值也称为离群值、极端值(Extreme)。明显偏大或偏小的值,异常值不一定为错误值。〈2〉识别异常值的常用方法有三种:第一种方法是为每个变量设定一个正常的取值范围,然后可以用简单的探索性统计分析进行识别。例如,连续变量,借助经验法则2可以设定为±3 个标准差,对于类别变量或者顺序变量,如果某一列别的频数超过1%或者更多被认为是正常。本方法的优点是简单快捷,缺点是只考虑了单个变量,没有考虑变量之间的相互影响。第二种方法建立在生成数据的过程中是否具有特定函数形式的模型,如假定服从线性模型,则利用线性模型拟合后,严重偏离模型的即为异常值。本方法的优点是考虑了变量之间的相互作用,缺点是需要有一个事先的假设,若假设错误,则有可能误判正常的点为异常值。第三种方法是用聚类算法将数据分为较小的子集,即簇或者群,只包含较小数量的观测值的群,被认定为极端值。聚类算法根据统计距离指标将相似的观测值分布在同一个簇。这个方法结合了以上两个方法的优点,但是在数据量较大的情况下,聚类对系统的资源要求比较大。〈3〉箱线图(Box Plot)箱线图是对数据分布的一种常用表示方法。在一张图上可以表示多种类型的统计量,通过图形的形状,可以了解数据的分布,异常值、极端值的情况等.〈4〉异常值的处理方法大多数情况下,被认定为极端值的观测值或者被删除,或者将其替换为某个更符合的值。但当被认定的异常值超过 10%以上时,异常值可能暗示其数据产生模式与其他数据不同,通过分析异常数据可以得到有用的信息,在对数据集进行建模或者分析时,应当分开分析无效值(Invalid)在录入时导致的错误,比如性别在录入时F 代表女,M 代表男,但是在录入时出现了“F,M”的情况,这种情况就是无效值。数据存在有效期,随着周围情况的变化,数据也会发生变化。例如,通过办理会员卡方式得到的客户住址、电话、邮箱等,在数据使用前,一定要知道数据是否还有效。无效值的处理方式可以通过查询数据来源、重复收集等修改为有效值,也可以作为单独的一类。?数据的重复值(Duplicate)对于有些值,比如ID,根据数据表示的含义,一条记录代表一个唯一的ID,但是在数据整合过程中出现了多个ID,对于重复观测,一般的方式是确定好原因之后删除。
|
|