新書推薦:
《
就业、利息和货币通论(徐毓枬译本)(经济学名著译丛)
》
售價:HK$
67.2
《
瘦肝
》
售價:HK$
99.7
《
股票大作手回忆录
》
售價:HK$
55.8
《
秩序四千年:人类如何运用法律缔造文明(世界重归混乱,文明岌岌可危,法律与秩序是我们仅有的武器。穿越时间,鸟瞰全球,一部波澜壮阔的人类文明史)
》
售價:HK$
154.6
《
民法典1000问
》
售價:HK$
99.7
《
国术健身 易筋经
》
售價:HK$
33.4
《
古罗马800年
》
售價:HK$
188.2
《
写出心灵深处的故事:踏上疗愈之旅(修订版)(创意写作书系)
》
售價:HK$
66.1
|
編輯推薦: |
一本能让人看明白的白话统计书 ,一本提供数据分析思路而非公式的统计书
行家张文彤博士带头点赞
涉及Excel、SPSS、R、SAS、JMP等常用工具软件
冯国双博士另著有《小白学SAS一书》
|
內容簡介: |
一本书如果没有作者自己的观点,而只是知识的堆叠,那么这类书是没有太大价值的。尤其在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么“做”线性回归分析,在你遇到实际数据时仍然不知道如何分析。在《白话统计》中,你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据笔者多年的分析经验,它们在实践中通常是奏效的。《白话统计》凝结了作者十多年来对统计分析的理解,对各种方法的介绍采用全新的理念和思路,不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。当然,本书同时提供了如何实现结果的软件(涉及Excel、SAS、R、JMP、SPSS 等)操作。
|
關於作者: |
冯国双,毕业于北京大学 ,具有十多的数据统计分析经验,主要擅长各种回归分析、非独立数据分析、药物分析建模、数据挖掘技术、新药临床试验中数据管理与统计分析等。精通SAS软件,协助医院临床或医学研究进行的设计及统计分析项目上百项。
|
目錄:
|
目 录
第 1 篇 基础篇
第1 章为什么要学统计2
1.1 统计学有什么用 3
1.2 生活世事皆统计 4
1.3 如何学统计 4
第 2 章变异统计学存在的基础 6
2.1 随机与变异6
2.2 特朗普与罗斯福的胜出抽样调查到底可不可靠 8
2.3 什么是抽样误差9
第 3 章郭靖的内力能支撑多久谈概率分布11
3.1 累积分布与概率密度的通俗理解12
3.2 是生存还是死亡?这是一个问题用Weibull 分布寻找生存规律 16
3.3 2003 年的那场SARS用Logistic 分布探索疾病流行规律20
3.4 普通的正态分布23
3.5 几个常用分布t 分布、2 分布、F 分布28
第 4 章关于统计资料类型的思考35
4.1 计数资料等于分类资料吗36
4.2 计数资料可否采用连续资料的方法进行分析37
4.3 分类资料中的无序和有序是如何确定的38
4.4 连续资料什么时候需要转换为分类资料39
4.5 连续资料如何分组寻找cut-off 值的多种方法 41
4.6 什么是虚拟变量哑变量47
第 5章如何正确展示你的数据 52
5.1 均数和中位数你被平均了吗53
5.2 方差与标准差变异的度量54
5.3 自由度你有多少自由活动的范围56
5.4 百分位数利用百分数度量相对位置57
5.5 如何比较苹果和橘子利用Z 值度量相对位置 59
5.6 某百岁老人调查报告说:少运动才能活得久谈一下比例和率 61
5.7 在文章中如何正确展示百分比63
第 6 章寻找失踪的运动员中心极限定理64
6.1 中心极限定理针对的是样本统计量而非原始数据 65
6.2 样本量大于30 就可以认为是正态分布了吗 67
第 7 章从女士品茶中领会假设检验的思想70
7.1 女士品茶的故事 70
7.2 零假设和备择假设 . 72
7.3 假设检验中的两类错误 73
7.4 P 值的含义 76
7.5 为什么P 值小于0.05(而不是0.02)才算有统计学意义78
7.6 为什么零假设要设定两组相等而不是两组不等 79
第 8 章参数估计一叶落而知秋81
8.1 点估计 .81
8.2 最小二乘估计82
8.3 最大似然估计84
8.4 贝叶斯估计86
第 9 章置信区间估计给估计留点余地88
9.1 置信区间的理论与实际含义88
9.2 置信区间与P 值的关系90
9.3 利用标准误计算置信区间91
9.4 利用Bootstrap 法估计置信区间 . 92
第 2 篇 实用篇
第10 章常用统计方法大串讲 98
10.1 一般线性模型方差分析与线性回归的统一99
10.2 广义线性模型线性回归与Logistic 回归的统一 103
10.3 广义可加模型脱离线性束缚 107
10.4 多水平模型打破独立条件 112
10.5 结构方程模型从单因单果到多因多果119
第 11 章正态性与方差齐性 .127
11.1 用统计检验方法判断正态性 127
11.2 用描述的方法判断正态性130
11.3 方差分析中的方差齐性判断.133
11.4 理解线性回归中的方差齐性 135
第 12 章t 检验不仅是两组比较 .138
12.1 从另一个角度来理解t 检验 138
12.2 如何正确应用t 检验 140
12.3 t 检验用于回归系数的检验141
12.4 t 检验的替代Wilcoxon 秩和检验142
第 13 章方差分析与变异分解145
13.1 方差分析中变异分解的思想145
13.2 为什么回归分析中也有方差分析147
13.3 铁打的方差分析,流水的实验设计148
13.4 方差分析后为什么要进行两两比较152
13.5 多重比较方法的选择建议154
13.6 所有的多组都需要做两两比较吗兼谈固定效应和随机效应 164
13.7 重复测量方差分析详解166
13.8 方差分析的替代Kruskal-Wallis 秩和检验176
13.9 多组秩和检验后的两两比较方法178
第 14 章卡方检验有卡未必走遍天下181
14.1 卡方检验用于分类资料组间比较的思想181
14.2 卡方用于拟合优度评价从Hardy-Weinberg 定律谈起184
14.3 似然比2、M-H 2、校正2 与Fisher 精确检验186
14.4 等级资料到底可不可以用卡方检验191
14.5 卡方检验的两两比较 193
14.6 Cochran-Armitage 趋势检验 194
14.7 分类变量的赋值是如何影响分析结果的196
第 15 章相关分析与一致性检验 200
15.1 从协方差到线性相关系数200
15.2 线性相关系数及其置信区间203
15.3 如何比较两个线性相关系数有无差异206
15.4 分类资料的相关系数 207
15.5 基于秩次的相关系数 210
15.6 相关分析中的几个陷阱213
15.7 用ICC 和CCC 指标判断一致性 215
15.8 用Bland-Altman 图判断一致性218
15.9 Kappa 检验在一致性分析中的应用219
第 16 章线性回归及其分析思路 .222
16.1 残差识别回归模型好坏的关键 223
16.2 回归系数的正确理解 226
16.3 回归系数检验VS 模型检验227
16.4 均值的置信区间VS 个体的预测区间 228
16.5 逐步回归筛选变量到底可不可靠谈变量筛选策略230
16.6 如何评价模型是好还是坏交叉验证思路 237
16.7 线性回归的应用条件你的数据能用线性回归吗 240
16.8 如何处理非正态Box-Cox 变换 247
16.9 如何处理非线性Box-Tidwell 变换248
16.10 方差不齐怎么办加权最小二乘法 250
16.11 当共线性导致结果异常时怎么办岭回归、Lasso 回归 .254
16.12 发现异常值应该删除吗谈几种处理异常值的方法 .260
16.13 如何处理缺失值是删除还是填补268
16.14 一个非教材的非典型案例线性回归的综合分析276
|
內容試閱:
|
前 言
在一本书中如果没有自己的观点,而只是各种已知知识的堆叠,那这本书还有什么意义呢?
作者
时光飞逝,从我的第一本书出版到现在,转眼已经过去了7 年。期间,我的统计分析经验在不断积累,对统计学方法也有了更深一步的认识。但有一点始终未变,那就是我对统计学的热爱以及推广统计学的理念。从我的第一本书开始,我的理念就是,尽量写一本让非统计学专业人员也能看懂的统计书。直到本书的面世,尽管每本书的风格不一,但我始终遵循这一理念。
推广和普及统计学并不是一件容易的事情。由于各种原因,不少人在初学统计学时有点抵触,所以我尽量通过各种方式努力使统计学平易近人,写书便是其中之一。多年前我曾在百度空间创建了自己的卫生统计空间,阅读量达到近百万次,后来由于百度空间关闭而结束。后来我又在微信公众平台上创建了小白学统计公众号。在本书出版之际,该公众号恰好满两岁,粉丝也刚好满2 万人。不少人在公众号上留言,建议我将内容整理成册并出版。因此,在后期我就一边写新的文章,一边将其整理修订。虽然本书脱胎于小白学统计公众号,但内容其实和公众号里的文章并不相同。
事实上,我几乎重写了所有内容,因为正式出版的书籍不能像公众号里的文章那样随意。所以,尽管你会看到书中的内容有与公众号相似之处,但本书更为系统和详细。
关于本书的名字,我曾在公众号上征集各位读者的意见,很多人建议直接用《小白学统计》这一书名。但经过仔细考虑,以及几位试读朋友的建议,最终还是命名为《白话统计》。因为本书并没有像教材一样系统地介绍各种统计方法,而更像随笔或补充读物。如果用武侠小说来类比,则更像梁羽生笔下的《玄功要诀》或金庸小说中的《易筋经》,虽然并不侧重教你具体招式,但却可以让你在学其他招数的时候事半功倍。
这是一本怎样的书
第一,你可以把本书看作一本翻译书。我在尽力把统计学中的公式翻译成白话文。比如,你在很多统计学书中看到正态分布的公式,而在本书中,你看到的是正态分布公式的解释及其实际含义;再如,你在统计学书中看到最大似然估计的公式时可能会有点困惑,本书则通过例子通俗地解释最大似然估计的计算思想。
第二,你还可以把本书看作统计学教材的补充内容。本书并不是简单地介绍各种统计方法,而是尽量把各种方法串联起来,从思路上理解方法本身。例如,教材中都会介绍如何用t 检验进行两组比较,本书则重在阐述t 检验的思想本身,这样你在任何场合(如线性回归、相关分析)看到t 检验都不会觉得陌生;而且本书还专门用了一章的篇幅对常见的各种统计学方法进行了串讲,从一般线性模型到广义可加模型,尽量让你明白它们之间的关系。
第三,如果你愿意,则也可以把本书看作一本打发时间的消遣读物。本书对所有概念和方法都尽量以通俗的语言而非官方语言来阐释。例如,在介绍分布时,通过大家熟知的郭靖如何消耗内力来进行说明,从而避免了不少人对分布这一概念完全摸不着头脑的尴尬;在介绍假设检验思想时,用了女士品茶这一浅显的例子来说明其思路。
从这本书中你能学到的和不能学到的
本书分为两大部分:基础篇和实用篇。其中,基础篇介绍了统计学中常见的概念及初学者容易存在的疑惑。例如,很多人都头疼的分布(第3 章)、初学者不易理解的假设检验(第7 章)、比较重要的中心极限定理(第6 章)、参数估计和置信区间(第8 章和第9 章)等。
实用篇则侧重介绍各种方法的思路及实现,先对各种常见方法进行了串讲(第10章),然后分别介绍了t 检验(第12 章)、方差分析(第13 章)、卡方检验(第14 章)、相关分析(第15 章)、回归分析(第16 章)。但是千万不要被我列举的表面现象所迷惑,这些方法可能你觉得都会,但如果你打开本书,则会发现原来这些内容并不是这么简单的。
一本书如果没有作者自己的观点,而只是知识的堆叠,那么这类书是没有太大价值的。尤其在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么做线性回归分析,在你遇到实际数据时仍然不知道如何分析。在本书中,你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据我多年的分析经验,它们在实践中通常是奏效的。
如果你想从本书中学习如何一步步地进行软件操作,那你可能会失望。本书没有教你具体的软件操作过程,因为软件实现是最简单的,而统计分析思路则是更为复杂的。学习统计,最遥远的距离是,你面对着电脑中的统计软件(中文版),菜单上的每个中文都认识,却始终不知道该点什么。这很让人受挫,不是吗?然而这不是软件操作的问题,而是统计思路的问题。本书将教你摆脱这一尴尬局面。
什么人适合阅读本书
如果你对统计学是完全的零基础,那么看前半部分内容应该问题不大,但对后半部分的统计方法可能需要花点心思,因为学习后半部分内容还是需要一定的统计学基础的。所以本书主要适合以下读者:
? 刚刚接触统计学,跟着老师听了几堂课,但是脑子里依然是一团糨糊的人。
? 学过统计学,但是对各种方法之间的关联并不清楚,想更进一步融会贯通的人。
? 在课堂上学过统计学,但遇到实际数据却不知如何下手,想了解数据分析思路的人。
? 统计学已经学得不错了,但有点眼高手低,对有些概念并未真正理解的人。
? 会一点数据分析,但是在实际数据面前容易头脑不清晰,想学习数据分析技巧的人。
? 会用简单的统计软件(如SPSS),但点开菜单却不知道里面的选项是什么意思、不知该如何勾选、也不知如何解读结果的人。
? 喜欢本人作品、小白学统计公众号的粉丝。
本书所用的软件
本书中结果的展示主要基于SAS 9.4 和JMP Pro 13。书中凡是涉及计算或结果展示的内容,大都给出了软件实现的语句或操作过程。考虑到不同读者有各自的软件使用习惯,书中分别给出了SAS 9.4、R 3.4.3、SPSS 20 和JMP Pro 13 的软件实现过程,部分特殊内容也用到了Medcalc 和Stata 12.0。
本书中的配套资源下载
本书中所有例子的数据、SAS 程序和R 程序都可以在知了帮网站下载,以节省读者输入数据和程序的时间。
致谢
首先,非常感谢陈峰老师在百忙之中帮忙作序,陈老师是一位儒雅型的生物统计学教授,能够请到陈老师作序,为本书增色不少。其次,感谢成都道然科技有限责任公司在整体策划和插图上的努力,你们看到书中那些生动的漫画都出自他们的手笔。
最后还必须感谢小白学统计公众号的粉丝,正是你们的鼓励,才让我义无反顾地将其内容整理成册并出版。
本书是作者多年经验的累积,而且查阅了大量国内外文献,但仍不敢说百分之百正确。如果书中有任何观点上的错误,那说明本人水平仍有不足,所有错误均由本人承担责任,还请读者不吝指正,可在小白学统计公众号里留言。
冯国双
|
|