新書推薦:
《
汉娜·阿伦特与以赛亚·伯林 : 自由、政治与人性
》
售價:HK$
109.8
《
女性与疯狂(女性主义里程碑式著作,全球售出300万册)
》
售價:HK$
109.8
《
药食同源中药鉴别图典
》
售價:HK$
67.0
《
设计中的比例密码:建筑与室内设计
》
售價:HK$
87.4
《
冯友兰和青年谈心系列:看似平淡的坚持
》
售價:HK$
55.8
《
汉字理论与汉字阐释概要 《说解汉字一百五十讲》作者李守奎新作
》
售價:HK$
76.2
《
汗青堂丛书144·决战地中海
》
售價:HK$
168.0
《
逝去的武林(十周年纪念版 武学宗师 口述亲历 李仲轩亲历一九三零年代武人言行录)
》
售價:HK$
54.9
|
編輯推薦: |
Microsoft Excel可以用来完成很多统计分析,但成千上万的用户和分析师却正在遭遇瓶颈。而作为一种功能强大的开源编程语言,R包含丰富的软件包和绘图技术,可以帮助我们更好地完成统计分析。本书作者融合自己多年的实践经验,全面、系统阐释使用Excel和R进行统计分析的实用技术、方法及技巧,准确展示了如何从Excel和R中收获更多。
在本书中,作者首先回顾如何在Excel中完成重要的任务,然后指导你在R中完成相同的任务——包括软件包的选择、获取和安装。除此之外,书中还讲解了在哪种情况下以及如何使用Excel和R,并比较了每种工具的优劣。
本书表述清晰易懂,将基本统计理论和反映真实世界挑战的相关实例结合起来。读完此书,你将能够得心应手地用R解决各种问题——包括很多Excel无法处理的问题。
·轻松过渡到R和其截然不同的用户界面
·列举R中丰富的软件包
·在Excel和R间高效移动数据
·使用R描述性统计分析工具DescTools,包括二值变量分析
·在R和Excel中完成回归分析与统计推断
·分析方差和协方差,包括单因子和因子化ANOVA
·对Solver的logist
|
內容簡介: |
统计分析能够帮助人们发掘有利于生产生活的规律和价值,为相关决策提供依据和参考。作为基础分析软件,Excel简单易懂,方便快捷,在基础研究、行政管理等领域应用广泛。但随着数据急速膨胀,统计分析的内容不断扩大,需要借助功能强大的分析工具。作为一种功能强大的开源编程语言,R语言包含丰富的软件包和绘图技术,可帮助完成数据分析,构建统计模型,展现研究结果。本书为熟悉Excel操作的人士提供通向R语言的实用性指南。借助R与Excel工具系统阐述统计分析方法、技术。通过两种软件的比较,围绕描述性统计、回归分析、方差分析、logistic回归、主成分分析几大模块,详细举出所需函数及代码,有效帮助读者在类比中掌握R语言,实现从Excel到R的过渡。
|
關於作者: |
作者简介
康拉德·卡尔伯格(Conrad Carlberg)是美国量化分析、数据分析和管理应用程序(如Microsoft Excel、SAS和Oracle)领域的知名专家,也是微软Excel有价值专家(MVP)。他拥有科罗拉多大学统计学博士学位,在高级分析技术应用方面近30年从业经验,并撰写了多部有关Excel量化分析的著作,包括《Statistical Analysis:Microsoft Excel 2010 》和《Predictive Analysis:Microsoft Excel》等。他的公司(www.conrardcarlberg.com)致力于各种公司日常涉及的销售、员工、客户管理和其他运营数据库系统数据的量化分析。
|
目錄:
|
译者序
作者简介
前言
第1章 从Excel到R的过渡1
1.1 调整预期2
1.1.1 分析数据:软件包3
1.1.2 存储和排列数据:数据框3
1.2 用户界面4
1.3 特殊字符5
1.3.1 使用波浪线5
1.3.2 使用赋值运算符-8
1.4 获取R11
1.5 扩展包13
1.6 运行脚本14
1.7 从Excel向R导入数据16
1.8 从R向Excel导出数据24
1.8.1 导出为CSV文件25
1.8.2 直接导出25
第2章 描述性统计29
2.1 Excel中的描述性统计29
2.1.1 使用描述性统计工具31
2.1.2 理解结果32
2.1.3 对R中的Pizza文件使用Excel描述性统计工具36
2.2 使用R的DescTools软件包40
2.3 输入一些有用的命令41
2.3.1 控制符号类型41
2.3.2 报告统计量44
2.3.3 对名义变量运行Desc函数53
2.4 用Desc运行双变量分析54
2.4.1 两个数值型变量55
2.4.2 按因子划分数值型变量60
2.5 用一个因子分析另一个因子:列联表70
2.5.1 Pearson卡方74
2.5.2 似然比76
2.5.3 Mantel-Haenszel卡方检验78
2.5.4 估计关系的强弱80
第3章 用Excel和R做回归分析82
3.1 工作表函数82
3.1.1 CORREL函数83
3.1.2 COVARIANCE.P函数84
3.1.3 SLOPE函数85
3.1.4 INTERCEPT函数87
3.1.5 RSQ函数90
3.1.6 LINEST函数92
3.1.7 TREND函数95
3.2 统计推断函数96
3.2.1 T.DIST函数97
3.2.2 F.DIST函数99
3.3 Excel中的其他回归分析资源101
3.3.1 回归工具101
3.3.2 图的趋势线105
3.4 R中的回归分析106
3.4.1 相关和一元回归106
3.4.2 分析多元回归模型110
3.4.3 R中的模型比较113
第4章 用Excel和R进行方差和协方差分析118
4.1 单因子方差分析118
4.1.1 使用Excel的工作表函数119
4.1.2 使用ANOVA:单因子工具120
4.1.3 对ANOVA使用回归方法122
4.2 使用R进行单因子ANOVA124
4.2.1 设置数据124
4.2.2 安排ANOVA表125
4.2.3 带缺失值的单因子ANOVA128
4.3 因子化ANOVA130
4.3.1 Excel中的平衡双因子设计131
4.3.2 平衡的双因子设计和ANOVA工具133
4.3.3 使用回归进行双因子ANOVA设计135
4.3.4 用R分析平衡因子化设计141
4.4 分析Excel和R中的不平衡双因子设计144
4.4.1 区分三种情况148
4.4.2 效应的指定方法153
4.5 Excel和R中的多元比较程序154
4.5.1 Tukey的HSD方法155
4.5.2 Newman-Keuls方法158
4.5.3 在Excel和R中使用Scheffé程序161
4.6 Excel和R中的协方差分析165
4.6.1 在Excel中用回归进行ANCOVA165
4.6.2 用R进行ANCOVA168
第5章 用Excel和R进行logistic回归173
5.1 线性回归和名义变量中的问题174
5.1.1 概率问题175
5.1.2 用几率代替概率177
5.1.3 使用几率的对数178
5.2 从对数几率到概率180
5.2.1 重新编码文本变量180
5.2.2 定义名称181
5.2.3 计算logit182
5.2.4 计算几率182
5.2.5 计算概率183
5.2.6 得到对数似然183
5.3 配置Solver185
5.3.1 安装Solver185
5.3.2 用Solver进行logistic回归185
5.4 logistic回归中的统计检验189
5.4.1 logistic回归中的R2和t189
5.4.2 似然比检验190
5.4.3 约束条件和自由度193
5.5 用R的mlogit软件包进行logistic回归195
5.5.1 运行mlogit软件包195
5.5.2 比较模型和mlogit200
5.6 用R中的glm函数201
第6章 主成分分析203
6.1 用Excel进行主成分分析204
6.1.1 浏览对话框205
6.1.2 主成分工作表:R矩阵及逆矩阵207
6.1.3 主成分工作表:特征值和特征向量210
6.1.4 变量的公因子方差212
6.1.5 因子得分213
6.2 Excel中的旋转因子215
6.3 用R语言进行主成分分析217
6.3.1 准备数据217
6.3.2 调用函数219
6.3.3 R中的最大方差法旋转222
|
內容試閱:
|
父亲曾经告诉我,在学术界,研究问题像木桩,各种应用程序像刀,因为木桩很小,所以伐木的刀需要格外锋利,否则难以砍下木桩,解决棘手的问题。这曾是高校教职人员不断争论的话题。我还听过很多不同的其他版本。当看见人们在讨论应用程序R和Microsoft Excel的区别时,我又想起了这句话。那种感觉异常强烈。
如果说我对R和Excel存在个人偏好,那么你可能认为我更倾向于选择Excel。自20世纪80年代末以来,我一直使用Excel作定量分析。无论是金融分析还是统计推断,Excel都能帮助我很好地解决问题。作为一名顾问,如果客户的系统中安装了Excel并且他们能熟练操作,那么这对我来说意义非凡。
Excel可以展示出很多统计分析内部(“黑匣子”)的细节。客户尽管没必要掌握从原始数据到最终概率表达的所有细节,但也需要知道这些细节可查,以便应对不时之需。
此外,Excel还是一种功能强大的学习工具。Excel的工作表函数和求解器Solver可以构建二元logistic回归模型。完全理解统计分析的最佳方法就是从头开始完成整个操作。
从更技术的角度来说,Excel并不是理想的统计应用程序。(Excel从不在考虑范围内。)这是因为自从30年前Excel首次发布以来,你还是会发现它在统计性能上的一些缺陷和错误,但SAS、SPSS、Stata、Minitab等软件不存在这些不足。在此期间,Microsoft已经解决和修正了很多统计功能方面的问题。但是,解决LINEST函数中常数为0的问题比较麻烦,需要对传统代数矩阵进行QR分解。从Excel 2016 的分析功能来看,这些问题仍然存在。
但是,Excel确实有助于统计分析,尤其是用VBA新增功能修复本地工作表函数时,Excel的帮助更大。另一方面,Excel能够处理的统计问题有限。比如,习惯于分析损益表和资产负债表的Excel用户,很容易达到初级、中级的统计分析水平(如多元回归)。Excel在处理统计问题方面也仅限于此。
R则有所不同。你很难举出R无法处理的统计问题。作为另一种免费开源软件,学会使用R完全是另一回事。我们主要通过命令行界面和菜单结构实现R的操作。(也可以通过一些图形用户界面使用R,在我看来这些界面都不令人满意。)下面列出R的一些特征:
R语言是区分大小写的,使用时要确保正确使用大小写字母。例如,Anova和anova在R中是两个不同的函数。尽管这两个函数都可返回方差分析表(方差分析的首字母缩略词即为函数名),但只有一个函数可以正确处理单元格观测数不同的因子分析。
再比如,函数XLGetRange可以直接导入Excel工作表数据,为后续分析做准备。但是,最好不要输入xlgetrange,因为R会显示无法找到目标函数xlgetrange。
R不存在明确的数据格式管理规则。存在这样一类函数,需要通过设置一些函数参数来决定函数结果的小数位数。还有一类函数,需要通过options语句或print语句来提供这些信息。在某些情况下,可以将字符作为整数中的千位分隔符,对于分数等数值,需要再次使用字符作为分隔符。
R中反斜杠的作用与文件地址中的反斜杠不同。以前,可能常用反斜杠指定一个路径,比如,csv文件的地址如下:C:\Users\Fred\Desktop\jr.csv。
但如果在R的read.csv函数中用反斜杠读入文件,则会出现错误。
R不用单个反斜杠分隔子文件夹和文件夹。R中的单个反斜杠解释为一个转义符。如果想要指定文件路径,则必须输入两个反斜杠:
或者使用斜杠:
现在,这些规则可以称为一些“小麻烦”,而不是“错误”或者“缺陷”。R与Excel在LINEST中返回回归系数的顺序问题类似,R与Excel中的函数CORREL和PEARSON等价。然而,这些代表着成功学会用R进行统计分析的阻碍。
上面提到的问题仅仅是一些例子。那么,如何充分利用这一免费且功能广泛的应用程序,而不受这些“小麻烦”的影响呢?在我看来,唯一的方法是多加练习,熟能生巧。
但是,如果你习惯用Excel做统计分析,我知道你会做哪些分析。你会得到均值、标准差、中位数等描述性统计量和置信区间等推断统计量,以便更好地理解数据的分布特征。这些统计分析工作会用到诸如AVERAGE的工作表函数和数据分析插件等应用工具。
对于简单的相关关系和不同因子水平下数值变量的双变量分析,通常会用到Excel工作表函数,如CORREL、带趋势线的散点图和数据透视表。
可以用多元回归分析多变量的样本数据。对于这类统计推断问题,Excel中的TREND和LINEST函数,以及数据分析插件中的回归工具,都是有用的方法。
你可能不想止步于对不同因子水平下数值变量的简单统计分析,也不想仅仅完成对数据总体的统计推断。这时可以用方差分析法(ANOVA),即用标准的工作表函数完成ANOVA,同时得到上述的统计分析和推断结果。数据分析插件中的工具同样能够达到相同的效果。
或许,你还想进一步研究二分类结局变量(如购买不购买)的概率,作为以生产线等为因子、页面停留时间等为协变量的函数。那么你需要使用前面提到的logistic回归,使用LN和EXP以及求解器Solver来确定方程表达式,预测二分类结局变量。
甚至还有可能,Excel的统计分析功能已无法满足你的需求,需要用VBA代码从相关矩阵提取主成分。主成分分析法是处理数据集
|
|