新書推薦:
《
血色帝国:近代英国社会与美洲移民
》
售價:HK$
58.2
《
海外中国研究·王羲之:六朝贵族的世界(艺术系列)
》
售價:HK$
178.1
《
唐宋绘画史 全彩插图版
》
售價:HK$
98.6
《
海洋、岛屿和革命:当南方遭遇帝国(文明的另一种声音)
》
售價:HK$
106.4
《
铝合金先进成型技术
》
售價:HK$
266.6
《
《全面与进步跨太平洋伙伴关系协定》国有企业条款研究
》
售價:HK$
98.6
《
银行业架构网络BIAN(全球数字化时代金融服务业框架)(数字化转型与创新管理丛书)
》
售價:HK$
98.6
《
金托邦:江湖中的沉重正义
》
售價:HK$
60.5
編輯推薦:
《数据之魅--基于开源工具的数据分析》作者雅奈特涵盖了数据分析的各个方面,从图表观察到建模分析,从数据挖掘到商业应用。作者从最基本的知识出发,由浅入深地介绍了数据分析的主要方法和工具,如直方图、函数插值、曲线拟合、数值积分等。数据分析必然涉及很多数学专业知识,作者的物理专业背景使其能够深入浅出地讲解各种数学方法,令人称奇的是,只要稍有大学数学基础,就能理解和吸收作者讲述的内容,而不是像高数课堂上一样,老师滔滔不绝的讲解也只能换来你对冗长的微积分公式的一知半解。而作者的软件工程专业背景使其能够很好地将数学方法与软件实现联系起来,这为计算机从业人员提供了很好的指引。更有益的是,作者并不是在阐述死板的方法,其讲述过程融入了强烈的探索精神和好奇心,有助于开阔思路,培养逻辑思考能力。
內容簡介:
《数据之魅--基于开源工具的数据分析》结合作者雅奈特多年来从事数据分析工作的丰富经验,阐述了数据分析所涉及的概念和方法。本书四部分19章,主题包括如何通过图表来观察数据,如何通过各种建模方法来分析数据,然后着重阐述如何进行数据挖掘,最后强调数据分析在商业和金融等领域的实际应用。本书包含大量的模拟过程及结果展示,并通过实例来阐述如何使用开源工具来进行数据分析。通过本书的阅读,读者可以清楚地了解这些方法的实际用法及用途。
《数据之魅--基于开源工具的数据分析》结构合理,通俗易懂,适合数据分析爱好者和从业者阅读,也适合以科学计算为工具的科研人员参考。同时,本书还适用于计算机科学、数学、工程技术和其他相关专业本科或研究生的数据分析课程,是一本不错的参考书。
關於作者:
Philipp
K.Janert目前提供数据分析和数学模型的咨询服务,他曾经是物理学家和软件工程师。他是《Gnuplot in
Action:Undetanding Data with Graphs》Manning出版的作者,他为O’Reillv
Network.IBM
deVeloperWorks和IEEEsoftware写过文章。他拥有Washington大学理论物理学的博士学位。
目錄 :
第1章 导论
数据分析
本书内容
关于讲习班
关于数学
需要具备的知识
本书不涉及的内容
第Ⅰ部分图表:观察数据
第2章 单一变量:形状和分布
数据点和抖动图
直方图和核密度估计
直方图
核密度估计
选学如何选择最优带宽
累积分布函数
选学概率图分布和QQ图
分布的对比
秩序图和上升图
仅用于适当时机:汇总统计量和箱形图
汇总统计量
Box-and-Whisker图
讲习班NumPy
NumPy实践
NumPy详解
扩展阅读
第3章 两个变量:建立关系
散点图
克服噪声:平滑
样条
LOESS
示例
残差
其他观点及提醒
对数图
倾斜
线性回归以及诸如此类的方法
描述重要信息
图形分析与图形演示
讲习班matplotlib
交互式使用matplotlib
案例学习:matplotlib与
LOESS
控制属性
matplotlib对象模型及结构
零碎知识
扩展阅读
第4章 以时间为变量:
时序分析
示例
任务
需求和现实
平滑处理
移动平均法
指数平滑法
不要忽视显而易见的东西
相关函数
示例
实现上的问题
选学过滤器和卷积
讲习班scipysignal
扩展阅读
第5章 多变量:图形的多变量分析
假色图
概览:多值图
散点图矩阵
协作图
变种
组成问题
组成的改变
多维组成:树形图和马赛克图
新颖的曲线类型标识符
平行坐标图
交互式探索
查询和缩放
连接和涂层
大游览与投影寻踪工具
讲习班多变量图形工具R
实验工具Python的Chaco库
扩展阅读
第6章 插曲:数据分析会话
数据分析会话
讲习班gnuplot软件
扩展阅读
第Ⅱ部分分析:数据建模
第7章 推算和粗略计算
推算的原理
估计大小
建立关联
使用数字
10的幂
小扰动
对数
更多示例
我所知道的一些常见事物
的相关数字
这些数字是否足够好?
准备工作:可行性和成本
完成之后:引用和
呈现数字
选学进一步探索摄动理论和
误差传播
误差传播
讲习班Gnu科学库GSL
扩展阅读
第8章 缩放参数模型
模型
建模
模型的运用和误用
参数的缩放
缩放参数
示例:维度参数
示例:优化问题
示例:成本模型
选学缩放参数与
量纲分析
其他理论
平均场近似
背景知识和其他示例
常见的时间演变方案
无限增长和衰减现象
约束增长:逻辑斯谛方程
振荡
案例学习:多少台服务器才是
最好的?
为什么要建模?
讲习班Sage
扩展阅读
第9章 关于概率模型的讨论
91二项分布和伯努利试验
精确的结果
利用伯努利试验建立平均场
模型
92高斯分布和中心极限定理
中心极限定理
中心项与尾项
为什么高斯分布如此实用?
选学高斯积分
幂律分布和非常规统计学
幂律分布的用法
选学期望值为无限时的
分布
接下来的研究
其他分布
几何分布
泊松分布
对数正态分布
特殊用途的分布
选学案例学习--随时间变化的单一访问者数量
讲习班幂律分布
扩展阅读
第10章 你真正需要了解的经典统计学知识起源
统计学的定义
从统计学角度解释
示例:公式测验
VS图解法
控制实验VS观察研究
实验设计
前景
选学贝叶斯统计--
另一种观点
用频率论来解释概率
用贝叶斯方法来理解概率
贝叶斯数据分析:一个实际有
效的例子
贝叶斯推理:总结与讨论
讲习班R语言
扩展阅读
第11章 插叙:数学大搜捕--
大脚怪和最小二
乘等
111如何平均均值
辛普森Simpson悖论
标准差
如何计算
选学应该选择哪一个
选学标准误差
最小二乘
统计参数估计
函数逼近
扩展阅读
第Ⅲ部分计算:数据挖掘
第12章 模拟
热身问题
蒙特卡洛模拟
组合问题
获得结果分布
优点和缺点
重新采样方法
拔靴法
拔靴法适用于哪些情况?
拔靴变量
讲习班SimPy离散事件模拟
SimPy简介
最简单的排队过程
选学排队理论
运行SimPy模拟
小结
扩展阅读
第13章 找出簇
簇由什么组成?
一种不同的观点
距离计算和相似度计算
常见的距离和相似度
计算方法
聚类方法
中心探索法
树形构造器
邻居生长器
前期处理和后期处理
规模的规范化
类的属性和评估
其他想法
具体案例:超市购物篮的
分析
提醒
讲习班Pycluster和C聚类库
扩展阅读
第14章 一木见林:
找出重要属性
主成分分析法
动机
选学理论
解释
计算
实用观点
双标图
可视化技术
多元尺度法
网络图
柯霍南图
讲习班用R进行PCA
扩展阅读
线性代数
第15章 插曲:当数据不成
比例地增长时
一个真实的故事
一些建议
mapreduce如何
讲习班生成排列
扩展阅读
第Ⅳ部分应用:数据的使用
第16章 报表、商务智能和
仪表板
商务智能
报表
企业指标和仪表板
关于指标计划的建议
数据的质量问题
数据的可用性
数据的一致性
讲习班BerkeleyDB和SQLite
BerkeleyDB
SQLite
扩展阅读
第17章 金融计算与建模
货币的时间价值
一次性支付:未来值和
现值
多笔付款:复利
复利的计算技巧
概览:现金流分析和
净现值
计划成本和机会成本中的
不确定性
用账户的期望值来考虑
不确定性
机会成本
成本概念及贬值
直接成本和间接成本
固定成本和可变成本
资本开支与运营成本
是否应该加以关注?
这些就是全部吗?
讲习班报纸经销商问题
选学精确解
扩展阅读
报纸经销商问题
第18章 预测分析
预测分析的主题
一些分类术语
分类算法
基于实例的分类和最近邻
分类算法
贝叶斯分类器
回归
支持向量机
决策树和基于规则的
分类器
其他分类算法
流程
集成方法:Bagging和Boosting
估计预测误差
类不平衡问题
私家秘诀
统计学习的本质
讲习班自己编写的两个
分类器
扩展阅读
第19章 结语:事实并非现实
附录A 科学计算与数据分析的编程环境
附录B 应用:微积分
附录C 使用数据
索引