新書推薦:
《
狂飙年代:18世纪俄国的新文化和旧文化(第二卷)
》
售價:HK$
177.0
《
万有引力书系 纳粹亿万富翁 德国财富家族的黑暗历史
》
售價:HK$
109.8
《
中国常见植物野外识别手册:青海册
》
售價:HK$
76.2
《
三星堆对话古遗址(从三星堆出发,横跨黄河流域,长江流域,对话11处古遗址,探源多元一体的中华文明)
》
售價:HK$
87.4
《
迷人的化学(迷人的科学丛书)
》
售價:HK$
143.4
《
宋代冠服图志(详尽展示宋代各类冠服 精美插图 考据严谨 细节丰富)
》
售價:HK$
87.4
《
形似神异:什么是中日传统政治文化的结构性差异
》
售價:HK$
55.8
《
养育不好惹的小孩
》
售價:HK$
77.3
|
編輯推薦: |
大数据培训名师、Spark大数据畅销书《大数据Spark企业级实战》作者王家林新作。内容全面覆盖Spark技术及其生态系统,通过源码分析详解Spark四大子框架。秉承“实战”类图书特点,解析大量代码的编写操作,具有较强的可操作性,便于读者学习和理解。
|
內容簡介: |
本书是一本全面介绍Spark以及Spark生态系统相关技术的书籍。主要内容包括Spark系统概述、Spark安装和集群的部署、RDD的编程实践、Spark的运行模式、Spark的运行机制以及Spark的四大子框架(Spark SQL、Spark Streaming、Spark GraphX、MLlib)的详细讲解。本书通过理论和实践相结合的方式对Spark的核心框架和生态圈做了详细的解读,不仅对Spark的原理进行详细阐述,还结合Spark的源码和案例操作展示了Spark框架的所具有的优雅和丰富的表现力。本书适合大数据从业者、Spark技术爱好者阅读。相信通过学习本书,读者能够熟悉和掌握Spark这一当前流行的大数据计算框架,并将其投入到实践中去。
|
目錄:
|
第1章Spark系统概述11Spark是什么12Spark生态系统BDAS121Spark Core122Spark SQL123Spark Streaming124Spark GraphX125MLlib126Tachyon127BlinkDB思考题第2章Spark安装和集群部署21搭建Hadoop分布式集群211安装VMware虚拟机212安装Ubuntu的镜像文件213安装JDK214搭建另外两台Ubuntu系统并配置SSH免密码登录215安装Hadoop和搭建Hadoop分布式集群22Spark安装和集群部署221安装Scala222安装Spark和集群部署23测试Spark集群231通过Spark提供的示例LocalPi测试Spark集群232通过Spark Shell测试Spark集群思考题第3章Spark RDD与Spark API编程实践31RDD介绍311RDD是Spark的核心抽象312RDD的特征32RDD的操作分类321输入操作322转换操作323行动操作324控制操作33Spark Shell下的Spark API编程实践331Local模式下实践map、filter和collect方法332集群模式下实践textFile、sortByKey和 saveAstextFile方法333集群模式下实践union、join、reduce和lookup方法334搜狗日志数据分析实践34基于IntelliJ IDEA使用Spark API开发应用程序341搭建和设置IntelliJ IDEA开发环境342在IntelliJ IDEA下开发并部署Spark应用程序343使用SBT编译Spark应用程序344使用Maven构建Spark应用程序345Spark工具思考题第4章Spark的运行模式41Spark的运行模式概览411Spark的基本工作流程412Spark应用程序部署42Local模式421Local模式实例部署及运行演示422Local模式内部实现原理43Standalone模式431Standalone模式实例部署及运行演示432Standalone模式内部实现原理44Yarn-Cluster模式441Yarn-Cluster模式实例部署及运行演示442Yarn-Cluster模式内部实现原理45Yarn-Client模式451Yarn-Client模式实例部署及运行演示452Yarn-Client模式内部实现原理46Mesos模式461Mesos模式实例部署及运行演示462Mesos模式内部实现原理思考题第5章Spark的运行机制51Spark集群的架构52Spark的作业和任务调度521Spark Application提交522作业(Job)提交523DAGScheduler划分Stage并提交524TaskScheduler提交Task525Executor运行Task并返回结果526Driver的处理53容错机制531Lineage机制532Checkpoint机制54Storage存储模块541Storage模块整体架构542缓存实现原理543缓存策略55Spark的消息传递机制Akka551Akka架构解析552Akka驱动下的start-allsh源码解析56Shuffle机制561Shuffle的原理 562Shuffle的写操作563Shuffle的读操作57共享变量571广播变量572累加器58Spark性能调优581数据序列化582内存优化583其他优化方法思考题第6章Spark SQL61Spark SQL原理和实现611Spark SQL简介612Spark SQL运行架构613Hive在Spark上的使用614源码解析SQL语句和HiveQL语句的执行过程62Spark SQL的操作实例621文本文件操作以及DSL操作622Parquet文件以及JSON文件操作623Hive数据操作演示(订单交易数据操作)624Spark SQL处理交通数据实战思考题第7章Spark Streaming71Spark Streaming运行原理711Spark Streaming简介712编程模型DStream713容错和持久化714性能调优715监控应用72源码解析Spark Streaming的运行过程721StreamingContext初始化并启动722数据接收723数据处理73Spark Streaming操作实例演示731文本数据操作实例演示732网络数据操作实例——销售模拟器演示733有状态(Stateful)操作实例演示734Window操作实例演示735SparkStreaming处理多源数据实战思考题第8章Spark GraphX81图的定义和应用811图的定义812图的应用82Spark GraphX简介821弹性分布式属性图822Spark GraphX图的切分和存储策略823Spark GraphX图的操作83Spark GraphX架构831Pregel图计算框架832Spark GraphX的实现833Spark GraphX图算法的实现方法84Spark GraphX图操作实例841基于Spark GraphX的属性图的操作实例842Spark GraphX图算法操作实例思考题第9章MLlib91机器学习简介911机器学习的定义912机器学习的分类913机器学习的常用算法92MLlib的简介921什么是MLlib922MLlib的架构923MLlib的数据类型924MLlib的算法93MLlib常用算法操作实践931K-Means算法解析和实践932协同过滤算法分析和案例实践思考题
|
|