新書推薦:
《
希腊文明3000年(古希腊的科学精神,成就了现代科学之源)
》
售價:HK$
82.8
《
粤行丛录(岭南史料笔记丛刊)
》
售價:HK$
80.2
《
岁月待人归:徐悲鸿自述人生艺术
》
售價:HK$
59.8
《
女人的中国医疗史:汉唐之间的健康照顾与性别
》
售價:HK$
103.8
《
资治通鉴熊逸版:第四辑
》
售價:HK$
458.9
《
中国近现代名家精品——项维仁:工笔侍女作品精选
》
售價:HK$
66.1
《
宋瑞驻村日记(2012-2022)
》
售價:HK$
112.7
《
汗青堂丛书138·帝国的切口:近代中国口岸的冲突与交流(1832-1914)
》
售價:HK$
124.2
|
編輯推薦: |
《Stata数据统计分析教程》
Stata入门必备书籍,全面、系统地讲解了软件的基础知识、数据访问及管理等内容,并配有大量来源于实践的案例;
结构系统,讲解清晰,通俗易懂,实用性强,是统计人员、Stata初中级用户、医学及生物研究人员、数据管理员以及其他数据分析人员的必备参考书籍。
|
內容簡介: |
廉启国编著的《Stata数据统计分析教程》定位 为Stata入门级的书籍,以Windows平台下Stata 13 .1 MP版本为基准,围绕数据访问、数据管理、数据 呈现和数据分析4个核心问题进行了详细阐述并介绍 了大量实用且免费的第三方命令。此外,本书还介 绍了Stata编程以便提高用户日常科研工作效率并介 绍了工作流程以有助于用户更好地实施项目管理含 数据的加密和恢复。最后,本书通过两章对近年来 比较热门的Meta分析和日常科研中频繁使用的样本量 估计进行了介绍。
|
關於作者: |
廉启国 上海市计划生育科学研究所助理研究员,复旦大学在职博士,研究方向为青少年发育与行为医学,有10年以上Stata使用经验。他是公卫人网(www.epiman.cn)的创建者,公卫人网是一个公共卫生专业网站,创建于2006年11月11日。公卫人网曾用名“流行病人”,主要定位于流行病学专业交流;后因讨论话题扩大到整个公共卫生领域,更名为“公卫人”,并沿用至今。
|
目錄:
|
第一部分 软件入门
第1章 Stata入门 1
1.1 Stata软件概述 1
1.1.1 Stata的发展历史与版本选择 1
1.1.2 Stata的正确读写与文献引用 2
1.1.3 Stata的软件特点与优势 3
1.1.4 Stata的主要功能模块 5
1.2 Stata 操作入门 6
1.2.1 Stata的安装与激活 6
1.2.2 Stata的启动与退出 7
1.2.3 Stata的操作方式 7
1.2.4 Stata的结果输出 8
1.2.5 Stata的自定义设置 11
1.3 Stata 使用基础 13
1.3.1 Stata的文件格式 13
1.3.2 Stata的变量类型 13
1.3.3 Stata的运算符 14
1.3.4 Stata的语法规则 15
1.3.5 Stata的使用实例 16
1.4 Stata升级扩展 16
1.4.1 Stata软件升级 16
1.4.2 Stata第三方命令的查找与安装 18
1.4.3 Stata的帮助文件及学习资源 22
第二部分 数据访问
第2章 数据访问 23
2.1 数据格式概述 23
2.2 直接录入数据 24
2.2.1 用Stata的数据编辑器录入 24
2.2.2 用Stata的命令窗口录入 26
2.3 数据的读取与保存 26
2.3.1 直接读取和保存Stata格式的数据 26
2.3.2 导入导出Excel格式的数据 27
2.3.3 导入导出带分隔符的文本格式数据 29
2.3.4 导入导出自由格式的文本格式数据 30
2.3.5 导入导出固定格式的文本格式数据 33
2.3.6 导入导出SAS XPORT 格式的数据 34
2.3.7 导入导出 XML格式的数据 35
2.3.8 导入导出SPSS格式的数据 36
2.4 数据格式转换软件StatTransfer简介 37
2.4.1 StatTransfer 支持的数据类型 37
2.4.2 StatTransfer 数据转换 39
2.5 数据录入软件EpiData Entry简介 39
2.5.1 建立调查表文件 40
2.5.2 生成REC文件并建立CHK文件 40
2.5.3 录入数据并导出 41
2.5.4 EpiData Entry伴侣 EpiMate简介 41
第三部分 数据管理
第3章 数据清理 43
3.1 双次录入数据的一致性检验 43
3.2 逐个变量对数据进行检查 44
3.3 通过交叉表对数据进行检查 48
3.4 通过分层对数据进行检查 51
3.5 通过逻辑对数据进行检查 52
3.6 更正数据 53
3.7 识别重复记录 54
3.8 对缺失值进行检查 56
3.8.1 缺失值编码 56
3.8.2 缺失值函数 57
3.8.3 缺失值检查 57
3.9 数据清理的注意事项 59
第4章 标签和注释 60
4.1 描述数据集 60
4.2 给数据集加标签 61
4.3 给变量加标签 62
4.4 给变量值加标签 65
4.5 管理标签 66
4.5.1 查看全部变量值标签的名称 66
4.5.2 查看变量值标签 66
4.5.3 查看变量值标签的详细内容 67
4.5.4 为变量值标签加数值前缀 67
4.5.5 复制变量值标签 68
4.5.6 移除变量值标签 68
4.5.7 删除变量值标签 68
4.5.8 保存变量值标签 69
4.6 给缺失值加标签 69
4.7 不同语言的标签 70
4.8 给数据集加注释 70
4.9 给数据集加时间戳 72
第5章 变量加工 75
5.1 查看变量与记录 75
5.1.1 查看变量 75
5.1.2 查看记录 77
5.2 删除变量与记录 77
5.2.1 保留删除变量 77
5.2.2 保留删除记录 77
5.3 新建变量 78
5.3.1 用generatereplace产生新变量 78
5.3.2 用egen产生新变量 79
5.3.3 克隆变量 80
5.3.4 新建分拆变量 81
5.3.5 新建指示变量 82
5.4 重命名变量 84
5.4.1 单个变量重命名 84
5.4.2 批量变量重命名 84
5.4.3 变量名大小写转换 85
5.4.4 批量变量名大小写转换 86
5.5 更改变量的格式 86
5.5.1 变量存储格式的起源 86
5.5.2 变量存储格式简介 86
5.5.3 更改变量的存储格式 87
5.5.4 更改变量的显示格式 87
5.6 调整变量的顺序 88
5.7 对变量的值进行排序 88
5.8 对变量进行编码 89
5.8.1 数值变量的编码 89
5.8.2 字符变量的编码 90
5.8.3 缺失值的编码 91
5.9 数值变量与字符变量的转换 91
5.9.1 字符变量转换为数值变量 91
5.9.2 数值变量转换为字符变量 92
5.10 日期时间变量 92
5.10.1 日期数据的导入 92
5.10.2 日期数据的运算 93
5.11 命名变量名的注意事项 93
第6章 数据集加工 95
6.1 数据集的合并 95
6.1.1 数据集的纵向追加 95
6.1.2 数据集的横向合并 97
6.1.3 数据集的交叉合并:组内交叉 100
6.1.4 数据集的交叉合并:一一交叉 100
6.2 数据结构的转换 101
6.2.1 数据的长型和宽型格式 101
6.2.2 宽型格式转换为长型格式 101
6.2.3 长型格式转换为宽型格式 102
6.3 数据转置 102
6.4 扩展数据 103
6.5 堆栈数据 104
6.6 压缩数据:生成统计量 104
6.7 压缩数据:生成频数或百分数 106
6.8 数据抽取 106
6.9 生成随机数据 107
6.10 缺失值填补 108
第四部分 数据呈现
第7章 统计描述 111
7.1 计量资料的统计描述 111
7.1.1 集中趋势的统计描述 111
7.1.2 离散趋势的统计描述 114
7.1.3 分布特征的统计描述 115
7.2 计量资料的参数估计 116
7.3 计数资料的统计描述 117
7.3.1 单个分类变量的统计描述 117
7.3.2 多个分类变量的统计描述 118
7.4 标准化法 119
7.4.1 标准化法的意义及基本思想 119
7.4.2 直接法 119
7.4.3 间接法 121
7.4.4 注意事项 123
第8章 报表制作 124
8.1 Stata报表呈现 124
8.1.1 使用命令tabulate 124
8.1.2 使用命令table 124
8.1.3 使用命令tabstat 127
8.1.4 使用命令collapse 128
8.1.5 使用命令contract 130
8.1.6 使用命令statsby 131
8.2 Stata报表呈现的第三方命令 132
8.3 Stata报表导出 133
8.3.1 Stata报表导出的官方命令 133
8.3.2 Stata报表导出的第三方命令 135
第9章 图形绘制 136
9.1 Stata图形概述 136
9.1.1 Stata图形组成 136
9.1.2 Stata绘图命令 136
9.1.3 Stata 图形格式 137
9.1.4 Stata 图形坐标轴选项 138
9.2 Stata图形编辑器 138
9.2.1 使用菜单绘制图形 139
9.2.2 启用Stata图形编辑器并进行个性化设置 140
9.2.3 启用Stata图形编辑器的绘图记录仪 140
9.2.4 取舍:图形编辑器与Stata命令 141
9.3 二维图 141
9.3.1 散点图 141
9.3.2 线图 145
9.3.3 面积图 146
9.3.4 条形图 147
9.3.5 区间图 149
9.3.6 分布图 149
9.4 散点图矩阵 150
9.5 条图 151
9.6 箱图 153
9.7 点图 155
9.8 饼图 156
9.9 图形的标准选项 158
9.9.1 创建和控制标题 158
9.9.2 使用图形格式控制图形外观 159
9.9.3 调整图形及其元素大小 159
9.9.4 调整图形区域的外观 160
9.10 修改图形的风格 160
9.10.1 角度 160
9.10.2 色彩 160
9.10.3 钟表方位 161
9.10.4 指南针方位 161
9.10.5 连接点 162
9.10.6 线条式样 163
9.10.7 线条宽度 163
9.10.8 页边 164
9.10.9 标记大小 164
9.10.10 标记符号 165
9.10.11 方向 165
9.10.12 文字大小 165
9.11 绘制地图数据 166
9.12 图形管理与控制 168
9.12.1 图形的存储 168
9.12.2 图形的重新展示 168
9.12.3 图形的合并 169
9.12.4 图形的输出 169
9.13 更多第三方绘图命令 170
9.13.1 小提琴图 170
9.13.2 雷达图 170
9.13.3 六图 171
9.13.4 更多资源 171
第五部分 数据分析
第10章 假设检验 173
10.1 正态性检验与正态性变换 173
10.1.1 正态性检验 173
10.1.2 正态性变换 176
10.2 t检验 179
10.2.1 t检验的基本原理 179
10.2.2 样本均数与总体均数的比较 179
10.2.3 成组设计两样本均数的比较 181
10.2.4 配对设计两样本均数的比较 184
10.2.5 两组间多个变量之间的均值比较 185
10.3 方差分析 186
10.3.1 方差分析的基本思想 186
10.3.2 单因素方差分析 186
10.3.3 两因素方差分析和多因素方差分析 188
10.3.4 协方差分析 188
10.4 非参数检验 190
10.4.1 非参数检验概述 190
10.4.2 样本中位数与总体中位数的比较 190
10.4.3 两个配对样本的非参数检验 191
10.4.4 两个独立样本的非参数检验 193
10.4.5 两个独立样本的非参数检验(多个变量) 194
10.4.6 多个独立样本的非参数检验 195
10.4.7 配伍设计的多组秩和检验 196
10.5 卡方检验 198
10.5.1 卡方检验的基本原理 198
10.5.2 四格表的卡方检验 198
10.5.3 配对卡方检验 200
10.5.4 列联表分析 201
10.5.5 分层卡方分析 204
10.5.6 一致性检验 206
10.6 流行病学表格分析 207
10.6.1 成组病例对照研究 207
10.6.2 配对病例对照研究 212
10.6.3 队列研究 214
10.7 相关分析 217
10.7.1 相关分析的指标体系 217
10.7.2 Pearson 相关系数 217
10.7.3 Spearman 相关系数 218
10.7.4 Kendall 等级相关系数 219
10.8 线性回归模型 220
10.8.1 线性回归模型简介 220
10.8.2 线性回归模型分析步骤 220
10.8.3 自变量的筛选方法 222
10.8.4 衡量回归方程的标准 223
10.9 logistic回归模型 224
10.9.1 logistic回归模型简介 224
10.9.2 两分类logistic回归(非条件logistic回归) 224
10.9.3 模型拟合效果的判断 226
10.9.4 两分类logistic回归(条件logistic回归) 231
10.9.5 多分类无序logistic回归 232
10.9.6 多分类有序logistic回归 234
10.10 等效性检验 235
10.10.1 等效性检验和传统差异性检验的区别 235
10.10.2 均值等效性t检验 236
10.10.3 比例等效性z检验 237
10.10.4 配对数据的随机等效性检验 238
10.10.5 两样本的随机等效性秩和检验 238
10.10.6 配对二分类数据的随机等效性z检验 238
10.10.7 交叉设计的等效应检验 239
第六部分 科研必备
第11章 Stata编程基础 241
11.1 do文件简介 241
11.2 do文件的内容 242
11.2.1 版本控制 242
11.2.2 命令注释与空行 243
11.2.3 超长命令行 244
11.3 do文件的运行 245
11.3.1 结果的保存 245
11.3.2 控制分页符 246
11.3.3 错误及调试 246
11.3.4 其他do文件的调用 247
11.4 do文件的最优规则 247
11.4.1 稳健性 247
11.4.2 可读性 248
11.5 项目管理器 248
11.6 Stata宏语句 249
11.6.1 宏的指定与引用 250
11.6.2 宏的扩展函数 250
11.6.3 调用Stata的计算结果 251
11.7 Stata循环语句 252
11.7.1 forvalues循环语句 252
11.7.2 foreach循环语句 253
11.7.3 while循环语句 255
11.8 include命令 255
11.9 临时变量 256
11.10 编写Stata程序(ado文件) 257
11.10.1 ado文件简介 257
11.10.2 编写一个简单的ado文件 258
11.10.3 为新建命令编写帮助文件 259
11.10.4 编写命令的注意事项 260
第12章 Meta分析 262
12.1 Meta分析简介 262
12.1.1 Meta分析的起源 262
12.1.2 Meta分析与系统评价的关系 263
12.1.3 Meta分析的指征、特点、目的和优点 263
12.1.4 Meta分析的制作步骤 264
12.1.5 Meta分析的常见类型 265
12.1.6 Meta分析的效应量和效应模型 265
12.1.7 Meta分析的偏倚及控制 266
12.1.8 Meta分析的报告规范 267
12.1.9 Meta分析的注意事项 268
12.2 Stata的Meta分析命令 268
12.2.1 Meta分析命令的安装 269
12.2.2 Meta分析命令简介 270
12.3 二分类数据的Meta分析 272
12.3.1 数据结构 272
12.3.2 效应量的选择 272
12.3.3 效应模型的选择 272
12.3.4 软件操作 272
12.4 连续性数据的Meta分析 274
12.4.1 数据结构 274
12.4.2 效应量的选择 275
12.4.3 效应模型的选择 275
12.4.4 软件操作 275
12.5 有序分类数据的Meta分析 277
12.5.1 数据结构 277
12.5.2 效应量的选择 277
12.5.3 Meta分析命令的安装 277
12.5.4 软件操作 278
12.6 异质性分析 279
12.6.1 异质性的检验 280
12.6.2 异质性的处理 281
12.6.3 改变效应量 282
12.6.4 选用随机效应模型合并效应量 282
12.6.5 探讨异质性的来源、按亚组分析 282
12.6.6 进行Meta回归及混合效应模型 283
12.6.7 敏感性分析 283
12.6.8 放弃进行Meta分析 283
12.7 发表偏倚检验 283
12.7.1 漏斗图 284
12.7.2 Begg和Egger法 284
12.7.3 剪补法 284
12.7.4 失安全系数法 285
第13章 样本量与检验效能 286
13.1 单样本 286
13.1.1 单样本均数检验的样本量和检验效能 286
13.1.2 单样本比例检验的样本量和检验效能 289
13.1.3 单样本相关检验的样本量和检验效能 291
13.1.4 单样本方差检验的样本量和检验效能 293
13.2 两个独立样本 295
13.2.1 两样本均数检验的样本量和检验效能 295
13.2.2 两样本比例检验的样本量和检验效能 297
13.2.3 两样本相关检验的样本量和检验效能 300
13.2.4 两样本方差检验的样本量和检验效能 302
13.3 两个配对样本 305
13.3.1 配对均值检验的样本量和检验效能(配对t检验) 305
13.3.2 配对比例检验的样本量和检验效能(McNemar检验) 307
13.4 方差分析 309
13.4.1 单因素方差分析 309
13.4.2 两因素方差分析 311
13.4.3 重复测量的方差分析 313
13.5 生存分析 317
13.5.1 Cox比例风险模型 317
13.5.2 对数秩检验 319
13.5.3 指数检验 321
13.6 为Stata官方命令power添加自己的方法 322
13.7 分层数据类型 322
13.8 随机对照试验 323
13.8.1 两样本比例检验 324
13.8.2 两样本均值检验 326
13.9 群组随机对照试验 328
13.9.1 命令简介 329
13.9.2 命令规则 330
13.9.3 命令举例 331
13.10 交叉试验 332
13.10.1 命令简介 333
13.10.2 命令规则 333
13.10.3 命令举例 334
13.11 回归分析中的样本量 335
13.12 PS:一款估计样本量与检验效能的免费软件 336
13.12.1 PS软件简介 336
13.12.2 PS软件适用范围 337
13.12.3 PS软件使用举例 337
附录A 常用Stata命令一览表 340
附录B 常用Stata函数一览表 346
附录C SAS和Stata的差异 349
附录D 常见的SPSS代码及对应的Stata代码 353
附录E 工作流 355
参考文献 365
|
內容試閱:
|
第一部分
软件入门
第1章 Stata入门
工欲善其事,必先利其器。选择一款得心应手的统计软件非常重要,优秀的统计软件不仅要预算合理、功能强大、易于上手、使用方便,而且还要具有前瞻性、权威性、灵活性和可扩展性。此外一个繁荣的用户社区也必不可少。Stata具有强大的统计与计量分析、精致的绘图、简单易行的窗口操作、简练便捷的编程、强大的Mata矩阵运算、丰富的网络资源等功能,这些使其成为世界上用户最多的软件之一,被高度评价为“数据分析的操作系统”,而不仅仅是一款“数据分析软件”。Stata是众多高等院校、研究机构和商业公司在进行数据分析时的首选软件,并被很多国家和国际组织指定为官方使用软件。
1.1 Stata软件概述
1.1.1 Stata的发展历史与版本选择
Stata是一款通用的统计软件包(架构师是William Gould),诞生于1985年(确切说是1984年12月),是StataCorp的核心产品。Stata被世界各地众多的商业和学术机构所使用。大多数的Stata使用者是做研究工作的,尤其是研究经济学、社会学、政治科学、生物医学和流行病学等领域的人员。经历了30年的发展,Stata已经升级到14.0版,如表1-1所示。
表1-1 Stata发展历程
Stata版本 发布日期 Stata版本 发布日期
1.0 1985年1月 2.1 1990年8月
1.1 1985年2月 3.0 1992年3月
1.2 1985年5月 3.1 1993年8月
1.3 1985年8月 4.0 1995年1月
1.4 1986年5月 5.0 1996年9月
1.5 1987年2月 6.0 1999年1月
2.0 1988年6月 7.0 2000年12月
2.05 1989年4月 8.0 2003年1月
(续)
Stata版本 发布日期 Stata版本 发布日期
8.1 2003年7月 11.0 2009年7月
8.2 2003年10月 11.1 2010年6月
9.0 2005年4月 11.2 2011年3月
9.1 2005年9月 12.0 2011年7月
9.2 2006年4月 13.0 2013年6月
10.0 2007年6月 13.1 2013年10月
10.1 2008年8月 14.0 2015年4月
每个版本的Stata根据处理数据集大小,又可分为多核版、特别版、标准版和学生版4个型号。StataMP(多核版)是Stata软件中运行最快的软件包,适合多处理器计算机(包括双核和多核处理器),它在SE版本上对多核处理器做了特别的优化,MP代表multiprocessor;StataSE(特别版)适合大型数据集,SE代表Special Edition;StataIC(标准版)适合中等规模的数据,IC代表intercooled;Small Stata(学生版)适合小数据,仅提供给教育机构使用。此外,Stata还提供了嵌入式和网页应用的解决方案Numerics by Stata,在嵌入式环境中,Numerics by Stata拥有Stata的全部功能。
StataIC可运行最多2047个变量的数据集,最大记录数取决于用户计算机的随机存取内存(RAM)的数量。StataIC在一个模型里最多可处理798个自变量,与其相比,StataSE和StataMP可以拟合更多自变量(高达10 998个)的模型,且可以拟合特定的、更大的时间序列的面板数据模型。Small Stata最多可运行99个变量及1200条记录,在一个模型里最多可处理99个自变量。4种型号的特点如表1-2所示。
表1-2 Stata不同型号的特点
型 号 最大变量数 最大自变量数 最大记录数 64位版本 并行处理 系统平台
StataMP 32 767 10 998 不限① 有 是 三大平台②均支持③
StataSE 32 767 10 998 不限① 有 否 三大平台②均支持
StataIC 2047 798 不限① 有 否 三大平台②均支持
Small Stata 99 99 1200 有 否 三大平台②均支持
① 最大记录数取决于计算机的随机存取内存(RAM)的数量。
② Windows、Mac、UNIX。
③ Mac仅支持Intel 64位处理器。
|
|