新書推薦:
《
认知行为疗法:心理咨询的顶层设计
》
售價:HK$
102.4
《
FANUC工业机器人装调与维修
》
售價:HK$
102.4
《
吕著中国通史
》
售價:HK$
64.4
《
爱琴海的光芒 : 千年古希腊文明
》
售價:HK$
204.7
《
不被他人左右:基于阿德勒心理学的无压力工作法
》
售價:HK$
67.9
《
SDGSAT-1卫星热红外影像图集
》
售價:HK$
457.7
《
股市趋势技术分析(原书第11版)
》
售價:HK$
227.7
《
汉匈战争全史
》
售價:HK$
102.4
|
編輯推薦: |
1.紧扣热点。Apache Kylin是大数据时代的宠儿,是业界目前*实现秒级别交互式大数据分析的开源技术,数仓OLAP霸主。
2.内容全面,广度和深度兼顾。不仅是国内关于Apache Kylin 的全面技术书,还融入了对于新特性和功能的讲解。
3.作者权威。作者是Apache Kylin的创始团队。
4.实战性强。本书从入门开始,深入浅出,包含众多实际大数据分析案例,让技术落地解决实际问题。
|
內容簡介: |
本书由Apache Kylin核心开发团队编写,近两年Apache Kylin随着社区持续贡献的热度和在不同领域业务场景的深入实践应用,新的功能和特性不断涌现,这样就迫切需要更新内容来满足广大Apache Kylin 的使用者和关注人群的需要。本书从Apache Kylin的架构和设计,各个模块的使用,与第三方的整合,二次开发以及开源实践等各个方面进行讲解,为各位读者呈现*核心的设计理念和哲学、算法和技术等。
|
關於作者: |
本书在2016年一稿撰写的时候,Kylin核心团队刚刚加入新成立的Kyligence 公司,一切从头开始,当时把写书当作了头等大事,整个六人团队都参与了其中:韩卿、李栋、李扬、马洪宾、史少锋、仲俭,署名Apache Kylin 核心团队。三年后,Kyligence 已经发展到一百多人;在更新第二版的时候,更多年轻小伙伴加入了进来,包括新Kylin Committer/contributor 陈志雄、龙超、翟娜、孙宇婕;BI 专家:何京珂、汤雪;解决方案专家冯礼、李森辉、宗正;技术支持工程师周丁倩,以及市场部美女编辑符云霞等;此外还有许多同事参与了书稿的审阅。他们都义务将自己的业余时间贡献出来,历时数月完成书稿的更新、修正和校对。
|
目錄:
|
推荐序
前 言
第1章 Apache Kylin概述1
1.1 背景和历史1
1.2 Apache Kylin的使命3
1.2.1 为什么要使用Apache Kylin3
1.2.2 Apache Kylin怎样解决关键问题4
1.3 Apache Kylin的工作原理5
1.3.1 维度和度量简介5
1.3.2 Cube和Cuboid6
1.3.3 工作原理7
1.4 Apache Kylin的技术架构7
1.5 Apache Kylin的主要特点9
1.5.1 标准SQL接口9
1.5.2 支持超大数据集10
1.5.3 亚秒级响应10
1.5.4 可伸缩性和高吞吐率10
1.5.5 BI及可视化工具集成11
1.6 与其他开源产品的比较11
1.7 小结13
第2章 快速入门 14
2.1 核心概念 14
2.1.1 数据仓库、OLAP与BI14
2.1.2 维度建模15
2.1.3 事实表和维度表16
2.1.4 维度和度量16
2.1.5 Cube、Cuboid和Cube Segment16
2.2 在Hive中准备数据 17
2.2.1 多维数据模型17
2.2.2 维度表的设计 17
2.2.3 Hive表分区 18
2.2.4 了解维度的基数 18
2.2.5 样例数据18
2.3 安装和启动Apache Kylin19
2.3.1 环境准备19
2.3.2 必要组件19
2.3.3 启动Apache Kylin19
2.4 设计Cube 19
2.4.1 导入Hive表定义19
2.4.2 创建数据模型21
2.4.3 创建Cube23
2.5 构建Cube 32
2.5.1 全量构建和增量构建34
2.5.2 历史数据刷新35
2.5.3 合并36
2.6 查询Cube 38
2.6.1 Apache Kylin查询介绍38
2.6.2 查询下压40
2.7 SQL参考 41
2.8 小结41
第3章 Cube优化42
3.1 Cuboid剪枝优化42
3.1.1 维度的组合42
3.1.2 检查Cuboid数量43
3.1.3 检查Cube大小45
3.1.4 空间与时间的平衡46
3.2 剪枝优化工具47
3.2.1 使用衍生维度47
3.2.2 聚合组49
3.2.3 必需维度51
3.2.4 层级维度51
3.2.5 联合维度52
3.3 并发粒度优化54
3.4 Rowkey优化55
3.4.1 调整Rowkey顺序55
3.4.2 选择合适的维度编码56
3.4.3 按维度分片57
3.5 Top_N度量优化58
3.6 Cube Planner优化61
3.7 其他优化62
3.7.1 降低度量精度62
3.7.2 及时清理无用Segment63
3.8 小结63
第4章 增量构建64
4.1 为什么要增量构建64
4.2 设计增量Cube66
4.2.1 设计增量Cube的条件66
4.2.2 增量Cube的创建67
4.3 触发增量构建69
4.3.1 Web GUI触发69
4.3.2 构建相关的REST API70
4.4 管理Cube碎片76
4.4.1 合并Segment76
4.4.2 自动合并77
4.4.3 保留Segment79
4.4.4 数据持续更新79
4.5 小结80
第5章 查询和可视化81
5.1 Web GUI81
5.1.1 查询81
5.1.2 显示结果82
5.2 REST API84
5.2.1 查询认证85
5.2.2 查询请求参数85
5.2.3 查询返回结果86
5.3 ODBC87
5.4 JDBC90
5.4.1 获得驱动包90
5.4.2 认证90
5.4.3 URL格式90
5.4.4 获取元数据信息91
5.5 Tableau集成91
5.5.1 连接Kylin数据源92
5.5.2 设计数据模型93
5.5.3 “Live”连接93
5.5.4 自定义SQL94
5.5.5 可视化展现94
5.5.6 发布到Tableau Server95
5.6 Zeppelin集成95
5.6.1 Zeppelin架构简介95
5.6.2 KylinInterpreter的工作原理96
5.6.3 如何使用Zeppelin访问Kylin96
5.7 Superset 集成98
5.7.1 下载Kylinpy98
5.7.2 安装Superset99
5.7.3 在Superset中添加Kylin Database100
5.7.4 在Superset中添加Kylin Table100
5.7.5 在Superset中创建图表103
5.7.6 在Superset中通过SQL Lab探索Kylin105
5.8 QlikView 集成106
5.8.1 连接Kylin数据源106
5.8.2 “Direct Query”连接107
5.8.3 创建可视化109
5.8.4 发布到QlikView Server110
5.9 Qlik Sense集成110
5.9.1 连接Kylin数据源110
5.9.2 “Direct Query”连接112
5.9.3 创建可视化114
5.9.4 发布到Qlik Sense Hub115
5.9.5 在Qlik Sense Hub中连接Kylin数据源117
5.10 Redash集成118
5.10.1 连接Kylin数据源118
5.10.2 新建查询119
5.10.3 新建仪表盘121
5.11 MicroStrategy 集成122
5.11.1 创建数据库实例123
5.11.2 导入逻辑表124
5.11.3 创建属性、事实和度量124
5.11.4 创建报告124
5.11.5 MicroStrategy连接Kylin最佳实践126
5.12 小结127
第6章 Cube Planner及仪表盘128
6.1 Cube Planner128
6.1.1 为什么要引入Cube Planner128
6.1.2 Cube Planner 算法介绍129
6.1.3 使用Cube Planner131
6.2 System Cube134
6.2.1 开启System Cube134
6.2.2 构建和更新System Cube135
6.3 仪表盘135
6.4 小结137
第7章 流式构建138
7.1 为什么要进行流式构建139
7.2 准备流式数据139
7.2.1 数据格式139
7.2.2 消息队列140
7.2.3 创建Schema141
7.3 设计流式Cube144
7.3.1 创建Model144
7.3.2 创建Cube145
7.4 流式构建原理147
7.5 触发流式构建150
7.5.1 单次触发构建151
7.5.2 自动化多次触发152
7.5.3 初始化构建起点152
7.5.4 其他操作153
7.5.5 出错处理153
7.6 小结154
第8章 使用Spark155
8.1 为什么要引入Apache Spark155
8.2 Spark构建原理156
8.3 使用Spark构建Cube158
8.3.1 配置Spark引擎1
|
內容試閱:
|
“麒麟出没,必有祥瑞。”
—中国古谚语
“与Apache Kylin团队一起合作使Kylin孵化成为顶级项目对我而言非常激动人心,Kylin在技术方面当然是振奋人心的,但同样令人兴奋的是Kylin 代表了亚洲国家,特别是中国,在开源社区中越来越高的参与度。”
—Ted Dunning Apache 孵化项目副总裁,MapR 首席应用架构师
今天,随着移动互联网、物联网、AI等各种技术的快速兴起,数据成了所有这些技术背后最重要,也是最有价值的“资产”。如何从数据中获得有价值的信息呢?这个问题驱动了相关技术的发展,从最初的基于文件的检索、分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析。而现在,我们关注的问题已经变成如何从海量的超大规模数据中快速获取有价值的信息。在新的时代,面对新的挑战,新的技术必然会应运而生。
在数据分析领域,大部分的技术都诞生在国外,特别是美国,从最初的数据库,到Hadoop为首的大数据技术,再到今天各种深度学习、AI等。但我国却又拥有世界上独一无二的“大”数据—最多的人口、最多的移动设备、最活跃的应用市场、最复杂的网络环境……面对这些挑战,我们需要有自己的核心技术,特别是在基础领域的突破和研发。今天,以Apache Kylin为首的各种来自中国的先进技术不断涌现,甚至在很多方面都大大超越了来自国外的其他技术,彰显了中国的技术实力。
自Hadoop选取大象图标伊始,上百个项目,以动物居之者为多。而其中唯有Apache Kylin(麒麟)来自中国,在众多项目中分外突出。在全球最大的开源基金会—Apache 软件基金会(Apache Software Foundation,ASF)的160多个顶级项目中,Apache Kylin是唯一一个来自中国的Apache顶级开源项目,与Apache Hadoop、Apache Spark、Apache Kafka、Apache Tomcat、Apache Struts、Apache Maven等顶级项目一起以“The Apache Way”构建开源大数据领域的国际社区,发展新技术并拓展生态系统。
大数据与传统技术的最大区别就在于数据的体量给查询带来的巨大挑战。从最早使用大数据技术来做批量处理,到现在越来越多的人要求大数据平台也能够如传统数据仓库技术一样支持交互式分析,随着数据量的不断膨胀、数据平民化的不断推进,低延迟、高并发地在Hadoop之上提供标准SQL查询能力成为必须攻破的技术难题。而Apache Kylin的诞生正是基于这个背景,并成功地完成了很多人认为不可能实现的突破。Apache Kylin最初诞生于eBay中国研发中心,该中心坐落于上海浦东新区。2013年9月底该研发中心开始进行POC测试并组建团队,经过一年的艰苦开发和测试,Apache Kylin于2014年9月30日正式上线,并在第二天,2014年10月1日,正式开源。
在这个过程中,面对使用何种技术、如何设计架构、如何突破那些看似无法完成的挑战等一系列技术难关,整个开发团队和用户一起经历了一个艰难的过程。今天呈现的Apache Kylin已经经历了上千亿甚至上万亿规模数据量的分析请求及上百家公司在实际生产环境中的检验,成为各个公司大数据分析平台不可替代的重要组成部分。本书将从Apache Kylin的架构和设计、各个模块的使用、与第三方的整合、二次开发以及开源实践等多个方面进行讲解,为读者呈现Apache Kylin最核心的设计理念和哲学、算法和技术等。
Apache Kylin社区的发展来之不易,自2014年10月开源至今已经有近五年的时间,从最初的几个研发人员发展到今天几十个贡献者、国内外上百家公司正式使用、连续两年获得InfoWorld Bossie Awards最佳开源大数据工具奖。来自Apache Kylin核心团队、贡献者、用户、导师、基金会等的帮助和无私奉献铸就了今天Apache Kylin活跃的社区,也使得此项技术得以在越来越多的场景下发挥作用。现在,由Apache Kylin核心团队撰写的本书即将出版,相信能更好地将相关的理论、设计、技术、架构等展现给各位朋友,希望能够让更多的朋友更加充分地理解Kylin的优势和适用的场景,更多地挖掘出Kylin的潜力。同时希望本书能够鼓励并吸引更多的人参与到Kylin项目和开源项目中,能够影响更多的人贡献更多的项目和技术到开源世界中。
此次《Apache Kylin 权威指南》的再版工作,得到了Kyligence研发团队的大力支持,他们纷纷自愿参与,本书大部分内容的写作是利用节假日和休息时间完成的,每位参与者都将自己在工作中获得的最佳实践经验总结到了这本书中,他们分别是:史少锋、陈志雄、冯礼、翟娜、汤雪、赵勇杰、周浥尘、龙超、宗正、孙宇婕、周丁倩、李森辉等。在此对他们表示诚挚的感谢!
韩卿
Apache Kylin联合创建者及项目委员会主席
2019年5月
|
|