登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書

『簡體書』学习Spark(影印版)

書城自編碼: 2667797
分類:簡體書→大陸圖書→計算機/網絡程序設計
作者: [美]卡劳 等著
國際書號(ISBN): 9787564159214
出版社: 东南大学出版社
出版日期: 2015-08-01

頁數/字數: 254页
書度/開本: 16开

售價:HK$ 99.9

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
逃不开的科技创新战争
《 逃不开的科技创新战争 》

售價:HK$ 103.3
漫画三国一百年
《 漫画三国一百年 》

售價:HK$ 55.2
希腊文明3000年(古希腊的科学精神,成就了现代科学之源)
《 希腊文明3000年(古希腊的科学精神,成就了现代科学之源) 》

售價:HK$ 82.8
粤行丛录(岭南史料笔记丛刊)
《 粤行丛录(岭南史料笔记丛刊) 》

售價:HK$ 80.2
岁月待人归:徐悲鸿自述人生艺术
《 岁月待人归:徐悲鸿自述人生艺术 》

售價:HK$ 61.4
女人的中国医疗史:汉唐之间的健康照顾与性别
《 女人的中国医疗史:汉唐之间的健康照顾与性别 》

售價:HK$ 103.8
资治通鉴熊逸版:第四辑
《 资治通鉴熊逸版:第四辑 》

售價:HK$ 470.8
中国近现代名家精品——项维仁:工笔侍女作品精选
《 中国近现代名家精品——项维仁:工笔侍女作品精选 》

售價:HK$ 66.1

 

建議一齊購買:

+

HK$ 183.2
《Hadoop权威指南 第4版(影印版)》
+

HK$ 96.2
《学习Scala(影印版)》
+

HK$ 162.8
《Scala编程 第2版(影印版)》
+

HK$ 103.6
《Spark高级数据分析(影印版)》
內容簡介:
所有领域中产生的数据都越来越大。你如何有效 地利用这些数据?本书介绍了Apache Spark,一种能 迅速执行数据分析过程的开源集群计算系统。利用 Spark,你能够通过Python、Java和Scala中的简单 API迅速地处理大数据集 卡劳主编的《学习Spark影印版英文版》由 Spark的开发者撰写完成,得到数据科学家和工程师 的支持,本书中的内容能够随时运行。你将学习如何 只通过几行代码执行并行任务,并覆盖了从简单批量 作业到流处理和机器学习等应用。
目錄
Foreword
Preface
1. Introduction to Data Analysis with Spark
What Is Apache Spark?
A Unified Stack
Spark Core
Spark SQL
Spark Streaming
MLlib
GraphX
Cluster Managers
Who Uses Spark, and for What?
Data Science Tasks
Data Processing Applications
A Brief History of Spark
Spark Versions and Releases
Storage Layers for Spark
2. Downloading Spark and Getting Started
Downloading Spark
Introduction to Spark''s Python and Scala Shells
Introduction to Core Spark Concepts
Standalone Applications
Initializing a SparkContext
Building Standalone Applications
Conclusion
3. Programming with RDDs
RDD Basics
Creating RDDs
RDD Operations
Transformations
Actions
Lazy Evaluation
Passing Functions to Spark
Python
Scala
Java
Common Transformations and Actions
Basic RDDs
Converting Between RDD Types
Persistence Caching
Conclusion
4. Working with KeyValue Pairs
Motivation
Creating Pair RDDs
Transformations on Pair RDDs
Aggregations
Grouping Data
Joins
Sorting Data
Actions Available on Pair RDDs
Data Partitioning Advanced
Determining an RDD''s Partitioner
Operations That Benefit from Partitioning
Operations That Affect Partitioning
Example: PageRank
Custom Partitioners
Conclusion
5. Loading and Saving Your Data
Motivation
File Formats
Text Files
JSON
Comma-Separated Values and Tab-Separated Values
SequenceFiles
Object Files
Hadoop Input and Output Formats
File Compression
Filesystems
Local"Regular" FS
Amazon $3
HDFS
Structured Data with Spark SQL
Apache Hive
JSON
Databases
Java Database Connectivity
Cassandra
HBase
Elasticsearch
Conclusion
6. Advanced Spark Programming
Introduction
Accumulators
Accumulators and Fault Tolerance
Custom Accumulators
Broadcast Variables
Optimizing Broadcasts
Working on a Per-Partition Basis
Piping to External Programs
Numeric RDD Operations
Conclusion
7. Running on a Cluster
Introduction
Spark Runtime Architecture
The Driver
Executors
Cluster Manager
Launching a Program
Summary
Deploying Applications with spark-submit
Packaging Your Code and Dependencies
A Java Spark Application Built with Maven
A Scala Spark Application Built with sbt
Dependency Conflicts
Scheduling Within and Between Spark Applications
Cluster Managers
Standalone Cluster Manager
Hadoop YARN
Apache Mesos
Amazon EC2
Which Cluster Manager to Use?
Conclusion
8. Tuning and Debugging Spark
Configuring Spark with SparkConf
Components of Execution: Jobs, Tasks, and Stages
Finding Information
Spark Web UI
Driver and Executor Logs
Key Performance Considerations
Level of Parallelism
Serialization Format
Memory Management
Hardware Provisioning
Conclusion
9. Spark SQL
Linking with Spark SQL
Using Spark SQL in Applications
Initializing Spark SQL
Basic Query Example
SchemaRDDs
Caching
Loading and Saving Data
Apache Hive
Parquet
JSON
From RDDs
JDBCODBC Server
Working with Beeline
Long-Lived Tables and Queries
User-Defined Functions
Spark SQL UDFs
Hive UDFs
Spark SQL Performance
Performance Tuning Options
Conclusion
10. Spark Streaming
A Simple Example
Architecture and Abstraction
Transformations
Stateless Transformations
Stateful Transformations
Output Operations
Input Sources
Core Sources
Additional Sources
Multiple Sources and Cluster Sizing
247 Operation
Checkpointing
Driver Fault Tolerance
Worker Fault Tolerance
Receiver Fault Tolerance
Processing Guarantees
Streaming UI
Performance Considerations
Batch and Window Sizes
Level of Parallelism
Garbage Collection and Memory Usage
Conclusion
11. Machine Learning with MLlib
Overview
System Requirements
Machine Learning Basics
Example: Spam Classification
Data Types
Working with Vectors
Algorithms
Feature Extraction
Statistics
Classification and Regression
Clustering
Collaborative Filtering and Recommendation
Dimensionality Reduction
Model Evaluation
Tips and Performance Considerations
Preparing Features
Configuring Algorithms
Caching RDDs to Reuse
Recognizing Sparsity
Level of Parallelism
Pipeline API
Conclusion
Index

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.