新書推薦:
《
为你想要的生活
》
售價:HK$
66.1
《
关键改变:如何实现自我蜕变
》
售價:HK$
77.3
《
超加工人群:为什么有些食物让人一吃就停不下来
》
售價:HK$
99.7
《
历史的教训(浓缩《文明的故事》精华,总结历史教训的独特见解)
》
售價:HK$
62.7
《
不在场证明谜案(超绝CP陷入冤案!日本文坛超新星推理作家——辻堂梦代表作首次引进!)
》
售價:HK$
58.2
《
明式家具三十年经眼录
》
售價:HK$
524.2
《
敦煌写本文献学(增订本)
》
售價:HK$
221.8
《
耕读史
》
售價:HK$
109.8
|
編輯推薦: |
(1)从数据、基础平台、分析方法、行业应用4个维度,义场景化方式讲解数据从获取、预处理、挖掘、建模、结论分析与展现到系统应用的流程,以及机器学习的重要技术
(2)三位金融领域的大数据专家近10年行业实战经验总结,包含大量行业解决方案和案例,并公开源代码
|
內容簡介: |
本书从企业实践出发,内容覆盖数据、平台、分析和应用等企业内数据流转的主要环节。布局上,按照数据与平台篇、分析篇和应用篇分别撰写。数据与平台篇(第1~3章),立足找到数据、整合数据、使用数据三个角度,介绍数据在企业内的分布和处理逻辑,以便快速为分析准备素材。分析篇(第4~11章),选取企业实际案例,介绍常用的数据挖掘与机器学习算法,以业务场景为导向展示数据分析过程和技巧。应用篇(第12~15章),选取当前主流的四个应用场景,介绍如何实现数据驱动,让数据“自动”流转于各个环节。
|
關於作者: |
陈春宝,先后获得了经济学硕士和工业工程博士学位,拥有10年数据分析及应用经验,目前任职于股份制商业银行总行,在数据挖掘、机器学习和业务咨询方面有着独到的见解,他的工作跨大数据、营销、风险、运营等多个领域,擅长诊断各类业务问题,应用商业和数据分析手段获得创新性的解决方案,并帮助业务部门有效的实施。他曾经担任交通银行信用卡中心的数据分析经理,以及美国MSA公司咨询顾问,拥有银行、信用卡、烟草、医药与电信等行业几十个项目的数据挖掘分析与SAS建模经验。基于大数据构建的预测模型,创新了商业模式并为公司带来新的收入来源,参与设计的算法获得人民银行科技发展二等奖。他还长期负责企业内的数据分析人员培训和管理,并先后担任两个大数据专业期刊的责任编辑,近几年经常作为嘉宾活跃在高校与企业的一系列大数据活动中。曾担任上海交通大学工程硕士企业导师,SCI&EI索引期刊发表论文10余篇。
|
目錄:
|
Contents 目录前言第一部分 数据与平台篇第1章 数据与数据平台31.1 数据的基本形态41.1.1 数据环境与数据形态41.1.2 生产数据51.1.3 原始数据51.1.4 分析数据61.2 数据平台71.2.1 数据仓库平台91.2.2 大数据平台131.2.3 MPP数据库221.2.4 NoSQL数据库231.3 应用系统241.4 本章小结25第2章 数据体系262.1 数据闭环272.2 数据缓冲区282.2.1 系统解耦292.2.2 批量导出312.2.3 FTP传输402.2.4 批量导入422.3 ETL492.3.1 ETL工具502.3.2 ETL作业522.4 作业调度562.5 监控和预警562.5.1 使用监控工具进行监控572.5.2 使用BI工具进行监控572.6 本章小结57第3章 实战:打造数据闭环593.1 数据缓冲区的基本规则603.1.1 文件存储规则613.1.2 文件命名规则613.1.3 文件清理规则623.2 自动加载的流程623.2.1 扫描文件633.2.2 下载文件643.2.3 解压文件653.2.4 加载文件653.3 自动加载程序的数据库设计663.3.1 数据文件信息表673.3.2 数据文件状态表683.3.3 加载配置信息表693.3.4 数据缓冲区信息表703.3.5 目标服务器表703.4 自动加载程序的多线程实现713.4.1 ScanFiles723.4.2 DownLoadAndUnZip753.4.3 LoadToHive773.4.4 LoadToOracle783.4.5 自动加载程序的部署架构793.4.6 程序的维护和优化803.5 本章小结80第二部分 分 析 篇第4章 数据预处理834.1 数据表的预处理844.2 变量的预处理854.2.1 缺失值的处理854.2.2 极值的处理904.3 变量的设计914.3.1 暴力衍生914.3.2 交叉升维924.4 变量筛选954.4.1 筛选显著变量954.4.2 剔除共线性964.5 本章小结100第5章 聚类,简单易用的客户细分方法1015.1 从客户细分说起1025.1.1 为什么要做客户细分1025.1.2 怎么做客户细分1035.1.3 聚类分析,无监督的客户细分方法1075.2 谱系聚类1075.2.1 基本步骤1075.2.2 案例:公司客户差异化服务1105.2.3 谱系聚类方法的题外话1155.3 K-means算法1165.3.1 基本步骤1165.3.2 案例:电商卖家细分1175.3.3 K-means算法的题外话1215.4 本章小结121第6章 关联规则挖掘,发现产品加载和交叉销售机会1226.1 销售的真谛:让客户买得更多1236.1.1 案例:电商的生意经1236.1.2 案例:富国银行的“商店”经营模式1246.1.3 案例总结1256.2 交叉销售1266.2.1 为什么要做交叉销售1266.2.2 怎么做交叉销售1266.3 关联规则挖掘,发现交叉销售机会1286.3.1 Apriori算法1296.3.2 Apriori算法的主要指标1296.3.3 Apriori算法的基本步骤1316.4 案例:信用卡产品交叉销售1316.4.1 准备数据1326.4.2 SAS实现1326.4.3 结果分析1336.4.4 序列关联分析1366.4.5 结果应用1376.5 本章小结138第7章 社交网络分析,从“关系的角度分析问题1397.1 先看几张美轮美奂的图片1407.2 社交网络分析方法1427.2.1 定义1427.2.2 应用场景1427.2.3 网络识别算法1437.3 案例:电商通过订单数据识别供应链1447.3.1 供应链及供应链金融1447.3.2 识别核心企业及其上下游关系1447.3.3 分析结果的业务应用1497.4 案例:P2P投资风险防范1517.4.1 案例背景1517.4.2 防范方法1527.5 本章小结153第8章 线性回归,预测客户价值1558.1 数值预测1568.2 回归与拟合1578.2.1 回归就是拟合1578.2.2 在Excel中添加趋势线预测1588.3 案例:信用卡客户价值预测1598.3.1 确定预测目标1598.3.2 准备建模数据1618.3.3 模型拟合1638.3.4 模型评估1658.4 基于客户价值分层的业务策略1678.5 本章小结167第9章 Logistic回归,精准营销的主要支撑算法1699.1 大数据时代的精准营销1709.1.1 精准营销1709.1.2 基于大数据的精准营销模式1719.1.3 如何做到精准1729.2 Logistic回归算法介绍1739.2.1 算法原理1739.2.2 关键步骤1749.3 案例:信用卡消费信贷产品的精准营销1769.3.1 案例背景1769.3.2 数据准备1769.3.3 数据预处理1809.3.4 建模1829.3.5 模型评估1859.4 预测模型的应用与评估1899.5 本章小结189第10章 决策树类算法,反欺诈模型“专家”19110.1 决策树,重要的分类器19110.2 决策树的关键思想19210.2.1 理财客户画像案例背景19210.2.2 关键思想一:递归划分19410.2.3 关键思想二:剪枝19710.3 案例:电商盗卡交易风险识别19810.3.1 案例背景19810.3.2 以SAS实现19910.3.3 以Clementine实现20110.3.4 以R实现20410.4 随机森林20810.5 本章小结209第11章 数据可视化,是分析更是设计21011.1 数据演示之道21011.1.1 好“色”之图21111.1.2 版式有形21211.1.3 数据发声21411.2 个性化地图21511.2.1 案例背景:存款增长率指标展示21511.2.2 获取地理位置的经纬度数据21611.2.3 定制地图背景和图标21711.2.4 生成地图22011.3 文本分析22211.3.1 案例:电商的客户评价分析22211.3.2 分词22311.3.3 词云制作22411.3.4 情感分析22511.4 本章小结227第三部分 应 用 篇第12章 标签系统23112.1 认识标签系统23112.2 标签系统的设计23312.2.1 标签系统的层次结构23312.2.2 标签系统的更新规则23312.2.3 机器学习模型转化为标签23512.3 标签系统的实现23612.3.1 标签映射表23712.3.2 标签系统的前端实现23812.3.3 标签系统的数据后端实现23812.3.4 标签系统的在线接口实现24212.4 本章小结242第13章 数据自助营销平台24413.1 数据自助营销平台的价值所在24513.1.1 自动化营销,提升工作效率24513.1.2 降低营销成本,提升用户体验24713.1.3 个性化营销,提升响应率24813.1.4 统一管理,便于效果追踪24913.2 数据自助营销平台的实现原则24913.2.1 数据营销活动的节点24913.2.2 数据自助营销平台的基础:标签系统25113.2.3 数据自助营销平台的批量任务25213.2.4 实时数据营销25413.3 数据自助营销平台的场景实例25413.3.1 客户生命周期管理25413.3.2 用卡激励计划25713.4 本章小结260第14章 基于Mahout的个性化推荐系统26114.1 Mahout的推荐引擎26214.1.1 Mahout的安装配置26214.1.2 Mahout的使用方式26314.1.3 协同过滤算法26414.1.4 Mahout的推荐引擎26514.2 规模与效率26814.2.1 Mahout推荐算法的适用范围26814.2.2 通过分布式解决规模和效率的问题27014.3 实现一个推荐系统27514.3.1 系统框架27514.3.2 推荐系统的刷新27614.3.3 部署一个可用的推荐系统27614.4 本章小结280第15章 图计算与社会网络28115.1 社会网络和属性图28215.2 Spark GraphX与Neo4j28315.2.1 Scala编程语言28415.2.2 Cypher查询语言28515.3 使用Spark GraphX和Neo4j处理社会网络28615.3.1 背景说明28615.3.2 数据准备28615.3.3 Spark GraphX处理原始网络28715.3.4 Neo4j交互式查询分析29115.3.5 更多的应用场景29515.4 本章小结296
|
內容試閱:
|
Preface 前言不畏浮云遮望眼,只缘身在最高层。—王安石《登飞来峰》数据科学家 = 统计学家 + 程序员 + 讲故事的人 + 艺术家—Shlomo Aragmon本书的创作初衷大数据方面的书籍可谓琳琅满目,有的讲解理论,有的介绍方法,有的传播理念。但是,大数据从业人员(如数据工程师、数据分析师、业务分析师、算法设计师等)应该掌握哪些知识与技能,如何应用数据解决现实的业务问题呢?恐怕最能给出答案的还是实际的数据从业者。为此,三位作者基于近10年的数据分析与应用经验,融合各自在商业银行、互联网金融和电商领域的切身体验,寓理论于实战,选取多个详实的案例,站在企业实际应用的角度介绍数据分析应用过程并公布源代码,并最终形成本书。本书对于读者开展数据分析工作能够提供直接帮助,为有志于在大数据领域发展的读者启航。本书特点本书有三大特点。其一,内容全面,覆盖大数据生态中的数据、基础平台、分析方法和应用四个领域,对数据应用从业务需求、数据准备、数据分析、挖掘建模、演示报告、成果应用等全流程进行了详细阐述;其二,以业务场景为主线,精选银行和互联网方面最具代表性的案例,站在数据消费者和分析师的角度,身临其境地介绍了数据如何产生价值,寓理论于实战,让读者能知其所以然;其三,写作手法上遵循大道至简原则,用浅显的语言介绍复杂的数据分析应用过程,归纳数据分析师乃至数据科学家应该修炼的要点,既关注技术细节,又不拖泥带水,能为读者提供直接帮助。本书定位本书既可作为数据分析与商业分析人员的入门指引和案头工具,亦可为统计学、计算机科学、市场营销等专业研究生拓宽视野。源代码下载对书中源代码感兴趣的读者,可与作者联系(邮箱:64346837@qq.com)。
|
|