新書推薦:
《
冯友兰和青年谈心系列
》
售價:HK$
167.3
《
利他主义的生意:偏爱“非理性”的市场(英国《金融时报》推荐读物!)
》
售價:HK$
77.3
《
认知行为疗法:心理咨询的顶层设计
》
售價:HK$
99.7
《
FANUC工业机器人装调与维修
》
售價:HK$
99.7
《
吕著中国通史
》
售價:HK$
62.7
《
爱琴海的光芒 : 千年古希腊文明
》
售價:HK$
199.4
《
不被他人左右:基于阿德勒心理学的无压力工作法
》
售價:HK$
66.1
《
SDGSAT-1卫星热红外影像图集
》
售價:HK$
445.8
編輯推薦:
中兴大数据平台DAP团队诚意之作大数据实践指南结合案例总结大数据建设实践中的经验与知识
內容簡介:
如果你是一名IT工程师,CTO希望你在一周内提交一份公司未来IT系统基础架构的初步建议;
如果你是一位IT营销人员,客户需要你在一周内向他汇报未来大数据系统的大致技术方向;
在这个信息严重过剩的时代,一周内从浩渺的技术细节的海洋中抓住关键的技术脉络,并进一步提出有一定理论依据的技术思考,这几乎是不可能完成的任务。
您是否想过阅读一本关于大数据的图书帮助解决如上问题?
浩如烟海的大数据领域图书可以大致归纳为三类:第一类是描述大数据的应用前景与社会意义;第二类是研讨大数据作为一个大型IT系统的系统架构与技术架构;第三类是研讨大数据领域的具体技术,例如HADOOP相关的编程等。
对于需要快速掌握大数据系统技术脉络,或者是需要对未来IT系统做系统思考的技术工作者来说,最需要的是第二类图书所提供的系统化知识。但目前业界大数据相关的书籍与资料,大多是第一类与第三类,第二类非常稀少,以至于某些希望开展大数据课程教学的高校难以找到合适的教材与参考数据。通过阅读本书,您将可以迅速建立大数据技术架构相关的知识与脉络,而不是迷失在浩如烟海的知识细节中。
本书的目的就是为了帮助读者在最短的时间内,系统地把握大数据相关的技术框架,建立系统架构级别的技术思考能力与原则。本书适用于企业的IT与大数据的从业人员,IT与大数据相关的销售人员,企业的首席技术官(CTO)、首席信息官(CIO),由于本书在大数据知识具备系统性,也可以作为高校大数据方面课程的教材或辅导书。
關於作者:
陈坚,高级工程师,1995年加入中兴通讯,现任中兴通讯中心研究院副院长,先后主持会议电视、核心网、统一网管平台、大数据平台系统架构设计及经营工作,多次获得国家、省市科技进步奖。具有近20年的电信行业从业经验,积累了深厚的技术专业知识和丰富的管理经验。
目錄 :
第一部分 大数据架构师入门
第1章 大数据概述 3
1.1 什么是大数据 4
1.2 大数据的本质 6
1.3 大数据技术当前状态 8
1.4 大数据的技术发展趋势 11
第2章 大数据项目常见场景 13
2.1 实验型部署场景 14
2.2 中小型部署场景 16
2.3 大型部署场景 19
第3章 大数据方案关键因素 23
3.1 数据存储规模与数据类型 24
3.2 数据来源与数据质量 25
3.3 业务特征 26
3.4 经济可行性 27
3.5 运维管理要求 28
3.6 安全性要求 29
3.7 部署要求 31
3.8 系统边界 32
3.9 约束条件 34
3.10 要点回顾 34
第二部分 大数据架构师基础
第4章 Hadoop基础组件 39
4.1 Hadoop简介 40
4.2 Hadoop版本演进 41
4.3 Hadoop2.0生态系统简介 42
4.4 Hadoop分布式文件系统HDFS 43
4.5 Hadoop统一资源管理框架YARN 48
4.6 Hadoop分布式计算框架MapReduce 52
4.7 Hadoop分布式集群管理系统ZooKeeper 57
第5章 Hadoop其他常用组件 61
5.1 Hadoop数据仓库工具Hive 62
5.2 Hadoop分布式数据库 HBase 65
5.3 Hadoop实时流处理引擎 Storm 70
5.4 Hadoop交互式查询引擎 Impala 74
5.5 其他常用组件 78
第6章 Spark内存计算框架 83
6.1 内存计算与Spark 84
6.2 Spark的主要概念 86
6.3 Spark核心组件介绍 96
6.4 Spark与Hadoop之间的关系 100
6.5 要点回顾 104
第7章大数据中间件层 105
7.1 中间件层简介 106
7.2 中间件层产品介绍 107
7.3 中间件层的应用 121
7.4 中间件层的发展 124
7.5 要点回顾 128
第8章大数据分析 129
8.1 数据时代 131
8.2 先进分析 133
8.3 架构与平台 136
8.4 数据分析流程 140
8.5 要点回顾 143
第9章可视化技术 145
9.1 可视化技术引言 146
9.2 什么是数据可视化 147
9.3 数据可视化设计 151
9.4 数据可视化的发展趋势 160
9.5 要点回顾 161
第10章大数据安全 163
10.1 安全体系 164
10.2 大数据系统安全 168
10.3 要点回顾 180
第11章大数据管理 181
11.1 数据管理的范围和定义 182
11.2 开源软件的管理能力 183
11.3 国内主流管理 187
11.4 大数据管理展望 195
11.5 要点回顾 195
第三部分大数据架构师实践
第12章大数据项目实践 199
12.1 大数据项目架构关键步骤 201
12.2 架构师实践思考 213
第13章大数据部署实践 217
13.1 中兴通讯DAP大数据平台功能和架构 218
13.2 DAP平台特点 219
13.3 某银行成功案例 220
第四部分 大数据架构师拓展
第14章分布式系统与大数据的关系 229
14.1 分布式系统概述 230
14.2 分布式系统关键协议和算法概述 237
14.3 分布式系统和大数据 241
第 15 章数据库系统与大数据的关系 245
15.1 数据库系统的历史 246
15.2 各类系统求同存异 258
15.3 大数据的发展展望 259
第16章云计算与大数据的关系 261
16.1 虚拟化概述 262
16.2 OpenStack云管理架构实现 267
16.3 大数据基于云计算IAAS部署的探讨 274
后记 277
媒体评论:
前 言
序一
人类文明的发展,总是伴随着技术的发展。例如,车轮的发明提高了人类交通与运输的效率,电报电话的发明提高了人类通信效率,计算机的发明提高了人类的信息处理能力。这些技术急剧地提升社会生产效率,增加社会总财富,提升人类的文明等级。
在过去的十年里,智能终端和移动互联网的快速发展深刻地影响和改变着人类社会。企业越来越依赖数据分析来指导自己的产品与服务改进,数据和数据处理能力成为企业在新的市场环境中生存、发展的关键,人类正在从IT时代走向DTData Technology时代。
在传统行业里,各行业的智慧生成都是依赖各行业的专家。但行业专家有两方面的局限性:其一,人类专家的能力与他在行业内的经验积累密切相关,误判的概率相当高;其二,人类专家对信息的处理能力非常有限,所以需通过层层的流程与管理进行信息收集、处理与决策。如上的局限性,决定了人类专家在现实生产环境中很难利用海量数据提升生产力。
自16世纪以来,大致发生了5次科学技术革命。其一是现代物理学的诞生,其二是以蒸汽机为代表的机械革命,其三是电力与运输革命,其四是相对论与量子论的诞生,其五是电子与信息革命。
当前世界处于第五次科技革命的过程中,其中蕴含着互联网、物联网、云计算、大数据等众多的创新机会。
其中,大数据作为人类处理海量信息的革命性技术,将突破人类专家数据处理能力的局限,带来社会生产力的普遍提升。中国、美国、英国、欧盟、日本、韩国等国政府越来越重视大数据所产生的价值,鼓励使用大数据以推动社会进步,在国家层面支持政府数据的公共资源化,并发布促进大数据技术发展的政策纲要。
例如,2014年5月美国总统行政办公室发布《大数据:抓住机遇、保存价值》的政策报告,2015年8月31日中国国务院发布《促进大数据发展行动纲要》。其中,中国的《促进大数据发展行动纲要》不仅政策力度大,而且在应用与落地上还非常细致具体。在纲要中提出5大目标、3大任务、10 大工程,以及7个政策机制,在国家层面推动大数据的应用与落地。
这是一个数据爆发的时代,移动物联网、智能终端、各类传感器的普及,以及随时随地的链接,促使全球数据以指数级增长,预计2020年全球数据规模将达到44ZB,相较2013年,全球数据规模将增长10倍,相当于每两年翻一番。按照用户数计算,中国无论是互联网用户还是移动互联网用户,其规模都已经是全球第一,其中宽带用户5.8亿,互联网用户6.5亿,手机用户13亿。按照数据占比来看,2013年中国在全球数据占比13%,预计2020年将上升到18%,届时中国将超越美国,数据拥有量位于世界第一。
大数据通过数据分析与挖掘,发现知识,生成智慧,并创造价值。大数据的应用,将提升人类生产与管理活动的准确性,减少传统方式下的试错成本,进而提升社会的总生产效率。未来,大数据不仅是一项海量数据处理技术,更是一项全面影响人类生活的基础技术。就好比文字这样的伟大发明一样,大数据将会融入人类所有领域与所有活动,并成为影响国家竞争力的重要因素。
中兴通讯对大数据的知识与工程经验进行系统性的概述,正好契合了当前大数据的建设浪潮,弥补了此类书籍的空白,为促进大数据的发展与应用提供了宝贵的经验。
序二
数据并不是一个新概念,几千年来我们一直在利用数据。但数据的价值,特别是大数据的价值,最近几年才成为公众关注的焦点,是有其时代背景的。
就如同石油在几千年前就被发现了,但是其用途一直是作为日常生活或战争中的燃料,并不是特别重要的战略物资。只有内燃机被发明后,石油才成为最重要的动力能源,在最近的一百年才成为战略物资。
数据也一样。传统的数据库技术,在数据处理的能力上都有很大的局限性,超过100T这个量级,要么是处理效率急剧降低,要么是系统成本上升到难以接受的昂贵程度。所以,在大数据时代之前,数据在生产系统中的使用目的往往是单一的、即时的。大量的历史数据与过程数据,按照当时的IT技术,既无法存储,更无法处理。那些被备份到磁带机上的数据,大部分都成为死亡的数据化石。
当前大数据处理的技术,特别是云存储与云计算技术的成熟应用,为大数据的存储与处理提供了技术可能性。企业可以利用生产系统以及管理系统中产生的大量数据,对海量的数据进行存储、挖掘分析。一方面可以对生产活动进行更为准确的预测与指导,从而提高企业生产活动的准确性;另一方面还可以通过对数据价值的挖掘,产生新的业务,帮助企业充分开发数据的价值。政府也可以利用大数据来提高管理水平和效率。
2014年Gartner发布的HypeCycle曲线中,大数据技术已经越过炒作顶点。从HypeCycle曲线来看,越过炒作顶点的技术,往往是已经满足技术可行性的技术。技术进展并辅以商业模式创新,大数据在部分细分市场已经具备商业可行性,可以为企业的现在与未来带来收益。
2015年8月国务院发布了《促进大数据发展行动纲要》,将大数据的应用与落地提升到国家层面。在这种背景下,当前大数据系统建设出现一波高潮。商业级的大数据系统建设周期长,复杂度高,资金投入量大,所以需要合理的系统架构以应对未来业务需求的变化。由于业界大数据系统的建设刚起步,当前阶段急需对相关的系统架构知识以及实际项目建设经验进行共享,提升业界的整体建设水平。
大数据架构师指南
纵观当前业界大数据相关的书籍,偏重于两大类型。其一是偏重于大数据理念,描绘大数据前景,说明大数据可以有哪些应用;其二是偏重于大数据基础知识,偏重于实际的编程与开发。
但在大数据项目的实际建设过程中,架构师在进行端到端方案设计时,需要对大数据庞大的知识体系进行总揽性把握,并辅以实际项目的经验,才有可能把握此类系统的关键需求与要点。而此类的知识与经验,业界分享较少,只能通过各类交流活动才能获取,不仅费时费力,而且还很难将这些知识系统化。
中兴通讯作为业界知名企业,在大数据研发上投入大量资源,并具备丰富的实际工程经验。本书不仅针对大数据知识进行系统化概述,并且将实际大型项目的经验进行总结。这种无私分享的宝贵经验,正是业界所亟需的,对大数据从业者具备较好的参考价值。相信本书分享的知识与经验,对推动大数据应用与落地起到积极的促进作用。
中兴通讯股份有限公司总裁
赵先明
Foreword
前言
毫无疑问,这是属于大数据的时代。随着移动互联网的进步、自媒体的风行和物联网的兴起,信息传播技术和信息传播渠道得到极大发展,海量级甚至银河级的数据不断涌现,呈现出信息爆炸的态势。这种情况下,似乎我们获取信息变得更加容易和方便;而实际上,由于对个体有用的信息淹没在浩如烟海的无关信息中,获取有用信息反而变得更加困难。
大数据相关技术就是在这种情况下应运而生的。作为一门新兴技术,大数据技术被人熟知和掌握需要一个过程;同时,由于其始终处于一个高速发展的过程,对其认识也是不断修正提高的过程。
鉴于此,本书总结了中兴通讯大数据平台DAP团队对大数据技术的最新研究成果,结合中兴大数据平台在各行业的应用实践经验,旨在帮助读者建立系统化的大数据技术脉络,并针对业界一些似是而非的问题进行系统性的讲解与澄清。阅读完本书,读者就可以基本掌握大数据技术的系统架构和核心思想。
为何要写这本书
在大数据项目建设过程中,往往需要三个层次的知识。第一个层次是关于大数据是什么,能做什么等理念方面的知识;第二个层次是如果去端到端进行大数据方案设计,要厘清大数据方案所需的关注重点,并结合具体的实践案例进行说明;第三个层次是大数据相关的基础技术知识,例如,对HDFS、MR、SPARK等技术点的掌握。
第一个层次的书籍,业界已经有很多,其中以《大数据时代》为典型代表;第三个层次的书籍,业界也比较多,读者不难获得相关的学习材料。
但第二个层次的书籍,属于承上启下的层次。该层次的知识需要从实践中总结出经验与知识。由于大型项目的建设周期长,建设复杂度高,涉及面广,所以从大型项目的实践中总结出知识有较高的难度。鉴于此,市面上该层次的大数据书籍相对较少,大数据相关的从业者或建设者较难获得这方面的知识,往往只能通过各类交流活动获取这方面的知识,不仅费时费力,而且难以将这些知识系统化。
基于如上原因,我们感觉迫切需要将我们在大型项目中积累的经验总结出来,供业界同仁参考,同时,这也可以满足我们内部人员学习大数据相关知识的需求。
本书读者对象
如果您是IT市场营销人员,或者是企业IT主管,您可以直接阅读本书的第一部分与第三部分。通过对本书第一部分与第三部分的阅读,将帮助您建立起大数据技术概念和框架。如果您对具体的大数据技术不感兴趣,可以忽略掉第二部分纯技术的内容。
如果您是大数据技术人员,本书将会是一本较好的参考资料,有助于帮助您超越自己所从事的具体模块,将您的大数据知识体系系统化。
如果您是高校大数据相关课程的老师,由于本书较为系统,可以考虑将本书作为参考书或者教材。
如果您是大数据技术爱好者,也可以将本书作为泛读书籍,让您理解当前大数据的时代。当然,读者如果能具备一定的IT基础知识,将能够更好地汲取本书中的知识。这不仅有助于您快速理解大数据相关知识,也有助于启发您对特定专题的深入思考和独到分析。
本书特色
本书是首本系统化的方案实践方面书籍,系统化地阐述了大数据方案应该如何思考,以及大数据的技术基础知识,并辅以实际的案例进行说明。
以客户化的语言,描述大数据项目建设中应该重点考虑的问题。即使不是技术专家,也能很容易地理解本书第一部分的内容。
较为系统地阐述了大数据相关的体系,可以帮助读者迅速系统化大数据相关的知识。
结合实际的案例,总结在大数据建设实践中的经验与知识。
如何阅读本书
本书内容分为四大部分,不同的读者可以选择不同的内容进行阅读。
本书第一部分是大数据架构师入门,以虚构角色小明的视角,去理解大数据,理解客户的烦恼,并提出构建一个大数据系统时应该从哪些方面考虑。阅读完该部分后,读者将对大数据方案具备一定的提问题的能力。也就是说,如果您面前有一份大数据的建设方案,即使您以前对大数据了解甚少,也可以根据本书第3章的建议,去评判方案的完整性,评判方案的深度与广度。
本书第二部分是大数据架构师基础,本部分将较为系统地介绍大数据相关的基础知识。如图Ⅰ-1 所示,逐个介绍基础支撑层、计算存储层、中间件层、挖掘分析应用层、展现层各部分内容,同时,对贯穿各层的安全和管理两大模块的相关内容做介绍,力图为读者呈现一个相对完整的大数据知识架构。
图Ⅰ-1 大数据技术框架
其中,计算存储层包括Hadoop架构、Spark架构等内容;中间件层包括中间件的作用与意义,以及业界常用中间件及应用场景;挖掘分析应用层包括非结构化数据处理,常用分析挖掘算法,数据建模与应用,数据可视化技术等内容;展现层包括可视化相关的知识与内容;安全模块包括物理安全、主机安全、网络安全、数据安全等内容;管理模块包括自动部署、自动升级、自动巡检、自动维护等内容。
本书第三部分是大数据架构师实践,主要包括大数据开发实践中积累的一些经验,并结合案例进行阐述。这些实战中积累的知识与智慧,将帮助理论联系实践,更好地理解大数据技术。
本书第四部分是大数据架构师拓展,主要包括与大数据相关的其他技术。
这些技术通常来说,并不属于大数据的技术范畴,但由于这些技术与大数据关系紧密,作为一名架构师,也需要系统地了解与思考这些相关的技术,才能对整个方案进行全局把握。该部分将试图对这些技术进行简单介绍,并试图说明这些技术与大数据之间的关系。
对于不需要关注具体技术的读者,则可以仅阅读第一部分大数据架构师入门;如果对具体的案例感兴趣,则可以阅读第三部分大数据架构师实践;如果是对技术感兴趣的读者,则可以阅读第二部分大数据架构师基础与第四部分大数据架构师拓展。
本书编写团队
大数据的知识非常广泛,不同层面的知识,以及不同技术模块的知识,很难由一个人完全掌握,所以本书是编写团队共同努力的成果。编写团队的成员都是在大数据领域担当重要工作岗位的技术骨干,大家在共同的理想与爱好下,聚集成一个团队,并为大数据架构师们完成了业界首本全面实践指导类的书籍。在此,请允许我列举参与编写的团队成员,并向他们致以诚挚的谢意。感谢他们牺牲周末与节假日的休息时间,为大家做的无私贡献。
团队成员包括:申山宏、朱科支、梁平、薛清华、马彧、李敏、郭海生、杨荣康、牛家浩、刘少麟、管云、洪科、简明、张强、艾红芳、关涛、于波、刘淑霞、郭进良、汪绍飞、周治中、王利学、黄增建、孙利军、肖文洁、周黎明。
勘误与支持
尽管我们尽了各种努力来保证文章不出错误,但由于编者水平有限,加上编写时间仓促,难免会有错讹之处。如果你在书中发现了错误,例如错别字、书写错误等,请告诉我们,我们将整理成勘误表。通过勘误表,可以帮助其他读者节省阅读时间,提高阅读体验,并可以帮助我们提供更高质量的下一版。
错误反馈请发送至邮箱zhou.zhizhong@zte.com.cn,或者关注中兴大数据微信公众号微信号ZTE_BigData并留言,我们将在第一时间确认反馈。勘误表可以在中兴大数据微信公众号上获取。
致谢
感谢中兴大数据平台DAP团队的所有成员,你们多年的潜心研究和积累是本书的基石。
感谢所有评审本书,并对本书提出过建议的朋友,你们的帮助对我们非常重要。
感谢关心本书的各界朋友,你们的关心与期望是我们的动力,更是对我们全心全意写好这本书的鞭策。
第一部分 大数据架构师入门
第1章 大数据概述 3
1.1 什么是大数据 4
1.2 大数据的本质 6
1.3 大数据技术当前状态 8
1.4 大数据的技术发展趋势 11
第2章 大数据项目常见场景 13
2.1 实验型部署场景 14
2.2 中小型部署场景 16
2.3 大型部署场景 19
第3章 大数据方案关键因素 23
3.1 数据存储规模与数据类型 24
3.2 数据来源与数据质量 25
3.3 业务特征 26
3.4 经济可行性 27
3.5 运维管理要求 28
3.6 安全性要求 29
3.7 部署要求 31
3.8 系统边界 32
3.9 约束条件 34
3.10 要点回顾 34
第二部分 大数据架构师基础
第4章 Hadoop基础组件 39
4.1 Hadoop简介 40
4.2 Hadoop版本演进 41
4.3 Hadoop2.0生态系统简介 42
4.4 Hadoop分布式文件系统HDFS 43
4.5 Hadoop统一资源管理框架YARN 48
4.6 Hadoop分布式计算框架MapReduce 52
4.7 Hadoop分布式集群管理系统ZooKeeper 57
第5章 Hadoop其他常用组件 61
5.1 Hadoop数据仓库工具Hive 62
5.2 Hadoop分布式数据库 HBase 65
5.3 Hadoop实时流处理引擎 Storm 70
5.4 Hadoop交互式查询引擎 Impala 74
5.5 其他常用组件 78
第6章 Spark内存计算框架 83
6.1 内存计算与Spark 84
6.2 Spark的主要概念 86
6.3 Spark核心组件介绍 96
6.4 Spark与Hadoop之间的关系 100
6.5 要点回顾 104
第7章大数据中间件层 105
7.1 中间件层简介 106
7.2 中间件层产品介绍 107
7.3 中间件层的应用 121
7.4 中间件层的发展 124
7.5 要点回顾 128
第8章大数据分析 129
8.1 数据时代 131
8.2 先进分析 133
8.3 架构与平台 136
8.4 数据分析流程 140
8.5 要点回顾 143
第9章可视化技术 145
9.1 可视化技术引言 146
9.2 什么是数据可视化 147
9.3 数据可视化设计 151
9.4 数据可视化的发展趋势 160
9.5 要点回顾 161
第10章大数据安全 163
10.1 安全体系 164
10.2 大数据系统安全 168
10.3 要点回顾 180
第11章大数据管理 181
11.1 数据管理的范围和定义 182
11.2 开源软件的管理能力 183
11.3 国内主流管理 187
11.4 大数据管理展望 195
11.5 要点回顾 195
第三部分大数据架构师实践
第12章大数据项目实践 199
12.1 大数据项目架构关键步骤 201
12.2 架构师实践思考 213
第13章大数据部署实践 217
13.1 中兴通讯DAP大数据平台功能和架构 218
13.2 DAP平台特点 219
13.3 某银行成功案例 220
第四部分 大数据架构师拓展
第14章分布式系统与大数据的关系 229
14.1 分布式系统概述 230
14.2 分布式系统关键协议和算法概述 237
14.3 分布式系统和大数据 241
第 15 章数据库系统与大数据的关系 245
15.1 数据库系统的历史 246
15.2 各类系统求同存异 258
15.3 大数据的发展展望 259
第16章云计算与大数据的关系 261
16.1 虚拟化概述 262
16.2 OpenStack云管理架构实现 267
16.3 大数据基于云计算IAAS部署的探讨 274
后记 277
媒体评论:
前 言
序一
人类文明的发展,总是伴随着技术的发展。例如,车轮的发明提高了人类交通与运输的效率,电报电话的发明提高了人类通信效率,计算机的发明提高了人类的信息处理能力。这些技术急剧地提升社会生产效率,增加社会总财富,提升人类的文明等级。
在过去的十年里,智能终端和移动互联网的快速发展深刻地影响和改变着人类社会。企业越来越依赖数据分析来指导自己的产品与服务改进,数据和数据处理能力成为企业在新的市场环境中生存、发展的关键,人类正在从IT时代走向DTData Technology时代。
在传统行业里,各行业的智慧生成都是依赖各行业的专家。但行业专家有两方面的局限性:其一,人类专家的能力与他在行业内的经验积累密切相关,误判的概率相当高;其二,人类专家对信息的处理能力非常有限,所以需通过层层的流程与管理进行信息收集、处理与决策。如上的局限性,决定了人类专家在现实生产环境中很难利用海量数据提升生产力。
自16世纪以来,大致发生了5次科学技术革命。其一是现代物理学的诞生,其二是以蒸汽机为代表的机械革命,其三是电力与运输革命,其四是相对论与量子论的诞生,其五是电子与信息革命。
当前世界处于第五次科技革命的过程中,其中蕴含着互联网、物联网、云计算、大数据等众多的创新机会。
其中,大数据作为人类处理海量信息的革命性技术,将突破人类专家数据处理能力的局限,带来社会生产力的普遍提升。中国、美国、英国、欧盟、日本、韩国等国政府越来越重视大数据所产生的价值,鼓励使用大数据以推动社会进步,在国家层面支持政府数据的公共资源化,并发布促进大数据技术发展的政策纲要。
例如,2014年5月美国总统行政办公室发布《大数据:抓住机遇、保存价值》的政策报告,2015年8月31日中国国务院发布《促进大数据发展行动纲要》。其中,中国的《促进大数据发展行动纲要》不仅政策力度大,而且在应用与落地上还非常细致具体。在纲要中提出5大目标、3大任务、10 大工程,以及7个政策机制,在国家层面推动大数据的应用与落地。
这是一个数据爆发的时代,移动物联网、智能终端、各类传感器的普及,以及随时随地的链接,促使全球数据以指数级增长,预计2020年全球数据规模将达到44ZB,相较2013年,全球数据规模将增长10倍,相当于每两年翻一番。按照用户数计算,中国无论是互联网用户还是移动互联网用户,其规模都已经是全球第一,其中宽带用户5.8亿,互联网用户6.5亿,手机用户13亿。按照数据占比来看,2013年中国在全球数据占比13%,预计2020年将上升到18%,届时中国将超越美国,数据拥有量位于世界第一。
大数据通过数据分析与挖掘,发现知识,生成智慧,并创造价值。大数据的应用,将提升人类生产与管理活动的准确性,减少传统方式下的试错成本,进而提升社会的总生产效率。未来,大数据不仅是一项海量数据处理技术,更是一项全面影响人类生活的基础技术。就好比文字这样的伟大发明一样,大数据将会融入人类所有领域与所有活动,并成为影响国家竞争力的重要因素。
中兴通讯对大数据的知识与工程经验进行系统性的概述,正好契合了当前大数据的建设浪潮,弥补了此类书籍的空白,为促进大数据的发展与应用提供了宝贵的经验。
序二
数据并不是一个新概念,几千年来我们一直在利用数据。但数据的价值,特别是大数据的价值,最近几年才成为公众关注的焦点,是有其时代背景的。
就如同石油在几千年前就被发现了,但是其用途一直是作为日常生活或战争中的燃料,并不是特别重要的战略物资。只有内燃机被发明后,石油才成为最重要的动力能源,在最近的一百年才成为战略物资。
数据也一样。传统的数据库技术,在数据处理的能力上都有很大的局限性,超过100T这个量级,要么是处理效率急剧降低,要么是系统成本上升到难以接受的昂贵程度。所以,在大数据时代之前,数据在生产系统中的使用目的往往是单一的、即时的。大量的历史数据与过程数据,按照当时的IT技术,既无法存储,更无法处理。那些被备份到磁带机上的数据,大部分都成为死亡的数据化石。
当前大数据处理的技术,特别是云存储与云计算技术的成熟应用,为大数据的存储与处理提供了技术可能性。企业可以利用生产系统以及管理系统中产生的大量数据,对海量的数据进行存储、挖掘分析。一方面可以对生产活动进行更为准确的预测与指导,从而提高企业生产活动的准确性;另一方面还可以通过对数据价值的挖掘,产生新的业务,帮助企业充分开发数据的价值。政府也可以利用大数据来提高管理水平和效率。
2014年Gartner发布的HypeCycle曲线中,大数据技术已经越过炒作顶点。从HypeCycle曲线来看,越过炒作顶点的技术,往往是已经满足技术可行性的技术。技术进展并辅以商业模式创新,大数据在部分细分市场已经具备商业可行性,可以为企业的现在与未来带来收益。
2015年8月国务院发布了《促进大数据发展行动纲要》,将大数据的应用与落地提升到国家层面。在这种背景下,当前大数据系统建设出现一波高潮。商业级的大数据系统建设周期长,复杂度高,资金投入量大,所以需要合理的系统架构以应对未来业务需求的变化。由于业界大数据系统的建设刚起步,当前阶段急需对相关的系统架构知识以及实际项目建设经验进行共享,提升业界的整体建设水平。
大数据架构师指南
纵观当前业界大数据相关的书籍,偏重于两大类型。其一是偏重于大数据理念,描绘大数据前景,说明大数据可以有哪些应用;其二是偏重于大数据基础知识,偏重于实际的编程与开发。
但在大数据项目的实际建设过程中,架构师在进行端到端方案设计时,需要对大数据庞大的知识体系进行总揽性把握,并辅以实际项目的经验,才有可能把握此类系统的关键需求与要点。而此类的知识与经验,业界分享较少,只能通过各类交流活动才能获取,不仅费时费力,而且还很难将这些知识系统化。
中兴通讯作为业界知名企业,在大数据研发上投入大量资源,并具备丰富的实际工程经验。本书不仅针对大数据知识进行系统化概述,并且将实际大型项目的经验进行总结。这种无私分享的宝贵经验,正是业界所亟需的,对大数据从业者具备较好的参考价值。相信本书分享的知识与经验,对推动大数据应用与落地起到积极的促进作用。
中兴通讯股份有限公司总裁
赵先明
Foreword
前言
毫无疑问,这是属于大数据的时代。随着移动互联网的进步、自媒体的风行和物联网的兴起,信息传播技术和信息传播渠道得到极大发展,海量级甚至银河级的数据不断涌现,呈现出信息爆炸的态势。这种情况下,似乎我们获取信息变得更加容易和方便;而实际上,由于对个体有用的信息淹没在浩如烟海的无关信息中,获取有用信息反而变得更加困难。
大数据相关技术就是在这种情况下应运而生的。作为一门新兴技术,大数据技术被人熟知和掌握需要一个过程;同时,由于其始终处于一个高速发展的过程,对其认识也是不断修正提高的过程。
鉴于此,本书总结了中兴通讯大数据平台DAP团队对大数据技术的最新研究成果,结合中兴大数据平台在各行业的应用实践经验,旨在帮助读者建立系统化的大数据技术脉络,并针对业界一些似是而非的问题进行系统性的讲解与澄清。阅读完本书,读者就可以基本掌握大数据技术的系统架构和核心思想。
为何要写这本书
在大数据项目建设过程中,往往需要三个层次的知识。第一个层次是关于大数据是什么,能做什么等理念方面的知识;第二个层次是如果去端到端进行大数据方案设计,要厘清大数据方案所需的关注重点,并结合具体的实践案例进行说明;第三个层次是大数据相关的基础技术知识,例如,对HDFS、MR、SPARK等技术点的掌握。
第一个层次的书籍,业界已经有很多,其中以《大数据时代》为典型代表;第三个层次的书籍,业界也比较多,读者不难获得相关的学习材料。
但第二个层次的书籍,属于承上启下的层次。该层次的知识需要从实践中总结出经验与知识。由于大型项目的建设周期长,建设复杂度高,涉及面广,所以从大型项目的实践中总结出知识有较高的难度。鉴于此,市面上该层次的大数据书籍相对较少,大数据相关的从业者或建设者较难获得这方面的知识,往往只能通过各类交流活动获取这方面的知识,不仅费时费力,而且难以将这些知识系统化。
基于如上原因,我们感觉迫切需要将我们在大型项目中积累的经验总结出来,供业界同仁参考,同时,这也可以满足我们内部人员学习大数据相关知识的需求。
本书读者对象
如果您是IT市场营销人员,或者是企业IT主管,您可以直接阅读本书的第一部分与第三部分。通过对本书第一部分与第三部分的阅读,将帮助您建立起大数据技术概念和框架。如果您对具体的大数据技术不感兴趣,可以忽略掉第二部分纯技术的内容。
如果您是大数据技术人员,本书将会是一本较好的参考资料,有助于帮助您超越自己所从事的具体模块,将您的大数据知识体系系统化。
如果您是高校大数据相关课程的老师,由于本书较为系统,可以考虑将本书作为参考书或者教材。
如果您是大数据技术爱好者,也可以将本书作为泛读书籍,让您理解当前大数据的时代。当然,读者如果能具备一定的IT基础知识,将能够更好地汲取本书中的知识。这不仅有助于您快速理解大数据相关知识,也有助于启发您对特定专题的深入思考和独到分析。
本书特色
本书是首本系统化的方案实践方面书籍,系统化地阐述了大数据方案应该如何思考,以及大数据的技术基础知识,并辅以实际的案例进行说明。
以客户化的语言,描述大数据项目建设中应该重点考虑的问题。即使不是技术专家,也能很容易地理解本书第一部分的内容。
较为系统地阐述了大数据相关的体系,可以帮助读者迅速系统化大数据相关的知识。
结合实际的案例,总结在大数据建设实践中的经验与知识。
如何阅读本书
本书内容分为四大部分,不同的读者可以选择不同的内容进行阅读。
本书第一部分是大数据架构师入门,以虚构角色小明的视角,去理解大数据,理解客户的烦恼,并提出构建一个大数据系统时应该从哪些方面考虑。阅读完该部分后,读者将对大数据方案具备一定的提问题的能力。也就是说,如果您面前有一份大数据的建设方案,即使您以前对大数据了解甚少,也可以根据本书第3章的建议,去评判方案的完整性,评判方案的深度与广度。
本书第二部分是大数据架构师基础,本部分将较为系统地介绍大数据相关的基础知识。如图Ⅰ-1 所示,逐个介绍基础支撑层、计算存储层、中间件层、挖掘分析应用层、展现层各部分内容,同时,对贯穿各层的安全和管理两大模块的相关内容做介绍,力图为读者呈现一个相对完整的大数据知识架构。
图Ⅰ-1 大数据技术框架
其中,计算存储层包括Hadoop架构、Spark架构等内容;中间件层包括中间件的作用与意义,以及业界常用中间件及应用场景;挖掘分析应用层包括非结构化数据处理,常用分析挖掘算法,数据建模与应用,数据可视化技术等内容;展现层包括可视化相关的知识与内容;安全模块包括物理安全、主机安全、网络安全、数据安全等内容;管理模块包括自动部署、自动升级、自动巡检、自动维护等内容。
本书第三部分是大数据架构师实践,主要包括大数据开发实践中积累的一些经验,并结合案例进行阐述。这些实战中积累的知识与智慧,将帮助理论联系实践,更好地理解大数据技术。
本书第四部分是大数据架构师拓展,主要包括与大数据相关的其他技术。
这些技术通常来说,并不属于大数据的技术范畴,但由于这些技术与大数据关系紧密,作为一名架构师,也需要系统地了解与思考这些相关的技术,才能对整个方案进行全局把握。该部分将试图对这些技术进行简单介绍,并试图说明这些技术与大数据之间的关系。
对于不需要关注具体技术的读者,则可以仅阅读第一部分大数据架构师入门;如果对具体的案例感兴趣,则可以阅读第三部分大数据架构师实践;如果是对技术感兴趣的读者,则可以阅读第二部分大数据架构师基础与第四部分大数据架构师拓展。
本书编写团队
大数据的知识非常广泛,不同层面的知识,以及不同技术模块的知识,很难由一个人完全掌握,所以本书是编写团队共同努力的成果。编写团队的成员都是在大数据领域担当重要工作岗位的技术骨干,大家在共同的理想与爱好下,聚集成一个团队,并为大数据架构师们完成了业界首本全面实践指导类的书籍。在此,请允许我列举参与编写的团队成员,并向他们致以诚挚的谢意。感谢他们牺牲周末与节假日的休息时间,为大家做的无私贡献。
团队成员包括:申山宏、朱科支、梁平、薛清华、马彧、李敏、郭海生、杨荣康、牛家浩、刘少麟、管云、洪科、简明、张强、艾红芳、关涛、于波、刘淑霞、郭进良、汪绍飞、周治中、王利学、黄增建、孙利军、肖文洁、周黎明。
勘误与支持
尽管我们尽了各种努力来保证文章不出错误,但由于编者水平有限,加上编写时间仓促,难免会有错讹之处。如果你在书中发现了错误,例如错别字、书写错误等,请告诉我们,我们将整理成勘误表。通过勘误表,可以帮助其他读者节省阅读时间,提高阅读体验,并可以帮助我们提供更高质量的下一版。
错误反馈请发送至邮箱zhou.zhizhong@zte.com.cn,或者关注中兴大数据微信公众号微信号ZTE_BigData并留言,我们将在第一时间确认反馈。勘误表可以在中兴大数据微信公众号上获取。
致谢
感谢中兴大数据平台DAP团队的所有成员,你们多年的潜心研究和积累是本书的基石。
感谢所有评审本书,并对本书提出过建议的朋友,你们的帮助对我们非常重要。
感谢关心本书的各界朋友,你们的关心与期望是我们的动力,更是对我们全心全意写好这本书的鞭策。
內容試閱 :
故事是这样的,在英语课本中伴随我们成长的小明,中学毕业后考上了大学名校,day day up地苦修7年计算机、IT以及大数据知识后,终于成长为大数据咨询师。记得那是明媚的春天,小明愉快地遨游在大数据一望无际的知识海洋里,春风十里不如大数据。忽然电话铃响了,电话那头传来Boss低沉的声音:小明,请到我办公室来一趟。十里的春风,忽然变幻成浓郁的雾霾。小明走三步停一步,终于走到Boss面前。国务院2015年8月31日已经印发了《促进大数据发展行动纲要》,你为啥到现在都没有向我报告?给你三天时间,给我说说,什么是大数据?大数据可以干啥?未来的技术方向是啥?小明熬了三天三夜,终于将业界关于大数据的科普知识整理出了一份报告,趁着早上Boss还没有来上班,悄悄地将报告放在Boss办公桌上。1.1 什么是大数据大数据,英文为Big Data。这个如今耳熟能详的名字,是《自然》Nature杂志于2008年9月4日的专辑Big Data中首次提出的。Google在其推动世界范围内的信息整合过程中,极大地推动了大数据技术的创新和发展。然而,到底什么是大数据?它的概念和外延包括哪些?由于大数据是最近新衍生出来的概念,它的内涵和外延也在不断地拓展和变化着,目前还没有一个业界广泛采纳的明确定义。2011年6月,麦肯锡全球研究院MGI在它的报告《大数据:创新、竞争和生产力的下一个前沿领域》中这样描述:大数据是指无法用传统数据库软件工具对其内容进行抓取、管理和处理的大体量数据集合Big data refers to datasets whose size