
编辑推荐
Kyligence 联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair),韩卿;武汉市云升科技发展有限公司董事长,杨正洪;万达网络科技集团大数据中心副总经理,《Spark高级数据分析》中文版译者,龚少成等等业内专家联合推荐。
本书全面介绍Apache Kylin的书籍,包括环境搭建、案例实战演示、源码分析、Cube优化等,此外还会涉及数据仓库、数据模型、OLAP、数据立方体等方面的知识。通过本书系统性学习和实战操作,朋友们将能够达到基于Apache Kylin搭建企业级大数据分析平台,并熟练掌握使用Apache Kylin多维度地分析海量数据,最终通过可视化工具展示结果。
作者简介
作者:蒋守壮
蒋守壮,现就职于万达网络科技集团有限公司,资深大数据工程师,大数据实践者。曾任平安科技资深大数据分析师和架构师,CSDN社区专家,知识库特邀编辑。目前专注于Docker、Kubernetes、Mesos、Hadoop、Spark和Kylin等技术领域。
目录
第—部分Apache Kylin基础部分
第1章Apache Kylin前世今生
1.1Apache Kylin的背景
1.2Apache Kylin的应用场景
1.3Apache Kylin的发展历程
第2章Apache Kylin前奏
2.1事实表和维表
2.2星型模型和雪花型模型
2.2.1星型模型
2.2.2雪花型模型
2.2.3星型模型示例
2.3OLAP
2.3.1OLAP分类
2.3.2OLAP的基本操作
2.4数据立方体(Data Cube)
第3章Apache Kylin工作原理和体系架构
3.1Kylin工作原理
3.2Kylin体系架构
3.3Kylin中的核心部分:Cube构建
3.4Kylin的SQL查询
3.5Kylin的特性和生态圈
第4章搭建CDH大数据平台
4.1系统环境和安装包
4.1.1系统环境
4.1.2安装包的下载
4.2准备工作:系统环境搭建
4.2.1网络配置(CDH集群所有节点1
4.2.2打通SSH,设置ssh无密码登录(所有节点)
4.3正式安装CDH:准备工作
4.4正式安装CDH5:安装配置
4.4.1CDH5的安装配置
4.4.2对Hive、HBase执行简单操作
第5章使用Kylin构建企业大数据分析平台的4种部署方式
5.1Kylin部署的架构
5.2Kylin的四种典型部署方式
第6章单独为Kylin部署HBase集群
第7章部署Kylin集群环境
7.1部署Kylin的先决条件
7.2部署Kylin集群环境
7.3为Kylin集群搭建负载均衡器
7.3.1搭建Nginx环境
7.3.2配置Nginx实现Kylin的负载均衡
第二部分Apache Kylin进阶部分
第8章Demo案例实战
8.1Sample Cube案例描述
8.2Sample Cube案例实战
8.2.1准备数据
8.2.2构建Cube
第9章多维分析的Cube创建实战
9.1Cube模型
9.2创建Cube的流程
9.2,1步骤一:Hive中事实表,以及多张维表的处理
9.2.2步骤二:Kylin中建立项目(Project)
9.2.3步骤三:Kylin中建立数据源(Data Source)
9.2.4步骤四:Kylin中建立数据模型(Model)
9.2.5步骤五:Kylin中建立Cube
9.2.6步骤六:Build Cube
9.2.7步骤七:查询Cube
第10章Build Cube的来龙去脉
10.1流程分析
10.2小结
第三部分Apache Kylin高级部分
第11章Cube优化
第12章备份Kylin的Metadata
12.1Kylin的元数据
12.2备份元数据
12.3恢复元数据
第13章使用Hive视图
13.1使用Hive视图
13.2使用视图实战
第14章Kylin的垃圾清理
14.1清理元数据
14.2清理存储器数据
第15章JDBC访问方式
第16章通过RESTful访问Kylin
第17章Kylin版本之间升级
17.1从1.5.2升级到最新版本1.5.3
17.2从1.5.1升级到1.5.2版本
17.3从Kylin l.5.2.1升级到Kylin 1.5.3实战
17.4补充内容
第18章大数据可视化实践
18.1可视化工具简述
18.2安装Kylin ODBC驱动
18.3通过Excel访问Kylin
18.4通过Power BI访问Kylin
18.4.1安装配置Power BI
18.4.2实战操作
18.5通过Tableau访问Kylin
18.6Kylin+Mondrian+Saiku
18.7实战演练:通过Saiku访问Kylin
18.7.1第一个Schema例子:myproject_pvuv_cube的演示
18.7.2第二个Schema例子:kylin_sales_cube的演示
18.7.3Saiku使用的一些问题
18.8通过Apache Zepplin访问Kylin
18.9通过Kylin的“Insight”查询
第19章使用Streaming Table构建准实时Cube
第20章快速数据立方算法
20.1快速数据立方算法概述
20.2快速数据立方算法优点和缺点
20.3获取Fast Cubing算法的优势
第四部分Apache Kylin的扩展部分
第21章大数据智能分析平台KAP
21.1大数据智能分析平台KAP概述
21.2KAP的安装部署
序言
自2011年下半年开始,我就一直关注Apache开源社区,侧重点放在大数据方面的成熟框架和产品。在这期间,陆续研究过Hadoop、Hive、HBase、Mahout、Kafka、Flume、Storm,以及近两年很火的Spark和Flink等,和很多从事大数据的朋友一样,经历过无数的夜晚,对着电脑屏幕逐行研究这些源代码,同时也看到无数的开源爱好者和技术专家加入Hadoop开源社区,贡献自己的力量,日复一日,乐此不疲。
谈起大数据,不得不提Hadoop,如今其早已发展成为了大数据处理的事实标准。Hadoop诞生于2005年,其受到Google的两篇论文(GFS和MapReduce)的启发。起初,Hadoop只是用来支撑Nutch搜索引擎的项目,从2006年开始,Hadoop脱离了Nutch,成为了Apache的顶 级项目,无论是在学术界还是工业界都得到了迅猛的发展。
如今已是2016年了,Hadoop十周岁了,这十年期间围绕其核心组件(HDFS、MapReduce、Yarn)陆续出现了一批工具,用来丰富Hadoop生态圈,解决大数据各方面的问题,这其中就包括Apache Kylin。
ApacheKylin(麒麟)是由eBay 研发并贡献给开源社区的Hadoop上的分布式大规模联机分析(OLAP)平台,它提供Hadoop之上的SQL查询接口及多维分析能力以支持大规模数据,能够处理TB乃至PB级别的分析任务,能够在亚秒级查询巨大的Hive表,并支持高并发。Apache Kylin于2014年10月开源,并于当年11月成为Apache孵化器项目,是eBay第一个贡献给Apache软件基金会的项目,也是第一个由中国团队完整贡献到Apache的项目,在这里对Apache Kylin的中国团队表示感谢,感谢贡献如此出色的大数据分析平台。
从去年开始接触Apache Kylin,我感觉很亲切,也很惊喜。当前研究的版本为0.7.1,也就是Kylin加入Apache孵化器项目后的第一个Apache发行版本,虽然当时的Kylin存在一些问题,但是其基于Hadoop设计的框架还是很有创意和特色的。经过一年多的发展,截至目前,Apache Kylin的版本已经发展到1.5.3,并且从1.5版本开始,Apache Kylin进行了重构,支持可扩展架构,支持更多的数据源、构建引擎和存储引擎,构建算法不断优化,支持与更多的可视化工具集成等。
如今,Apache Kylin已被应用在eBay、Exponential、京 东、美团、明略数据、网易及其他公司。越来越多的大数据团队开始选择Apache Kylin作为公司大数据分析平台的组成部分,满足其海量数据的多维指标实时查询分析。通过很多社区的交流分享,我发现不少朋友对Apache Kylin没有一个整体的认识,在使用过程中出现各种各样的问题,打击自信心,他们急切希望能有一本全面介绍Apache Kylin的书籍。因为我经常在博客和社区分享Apache Kylin实战方面的一些经验,所以很多朋友鼓励我能够写一本比较全面介绍Apache Kylin的书籍,帮助更多的爱好者更好地加入Apache Kylin的社区,并在生产环境中进行实践。刚开始比较犹豫,毕竟写书需要花费大量的时间和精力,而且要对读者负责,容不得半点马虎。后来有社区的几个朋友给我打电话劝说,以及清华大学出版社的夏毓彦编辑一再鼓励,还有家人的支持,我就下定决心写这本书,目的只有一个,就是希望读者能够通过这本书,对Apache Kylin有一个完整的认识,掌握各方面的技能,并最终应用在自己公司的生产环境中。
本书内容
这是一本全面介绍Apache Kylin的书籍,包括环境搭建、案例实战演示、源码分析、Cube优化等,此外还会涉及数据仓库、数据模型、OLAP、数据立方体等方面的知识。通过本书系统性学习和实战操作,朋友们将能够达到基于Apache Kylin搭建企业级大数据分析平台,并熟练掌握使用Apache Kylin多维度地分析海量数据,最终通过可视化工具展示结果。
受众人群
本书适合从事Hadoop、HBase、Hive和Kylin等方面工作的人员参考阅读,最好能掌握一点OLAP、数据立方体等数据仓库方面的知识。但是我相信这本书也适合任何想从事大数据方面工作的程序员和架构师。
代码规范和下载
本书中会涉及大量的Linux Shell命令,这些命令都是在CentOS操作系统上执行成功的,对于其他的一些Linux系统也同样适用,如有不适用的,可以查阅资料,修改命令以符合对应的操作系统。
读者服务
由于本人的写作能力有限,可能有些章节内容考虑并不全面,或者版本升级导致某些章节部分内容不是最新的。
致谢
这本书的面世,得到了很多朋友的鼎力相助,在这里感谢所有帮助我完成这本书的人。
感谢公司的同事们,特别感谢项同德和万文兵两位项目经理给予的支持和鼓励,感谢施健健给予的技术支持和帮助。
感谢CSDN和cnblogs博客中优秀的文章给予的技术支持。
感谢清华大学出版社所有为本书的出版和发行付出了辛勤劳动的人们。
最后,我要感谢我的家人,给予我的不懈支持。感谢父母帮我们照顾调皮捣蛋的宝宝;感谢妻子一如既往地照顾我的生活,给予我充足的时间用来写作。没有家人的支持和照顾,我是不可能完成这本书。
作者
2016年10月
文摘
版权页:
插图:
Kyligence 联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair),韩卿;武汉市云升科技发展有限公司董事长,杨正洪;万达网络科技集团大数据中心副总经理,《Spark高级数据分析》中文版译者,龚少成等等业内专家联合推荐。
本书全面介绍Apache Kylin的书籍,包括环境搭建、案例实战演示、源码分析、Cube优化等,此外还会涉及数据仓库、数据模型、OLAP、数据立方体等方面的知识。通过本书系统性学习和实战操作,朋友们将能够达到基于Apache Kylin搭建企业级大数据分析平台,并熟练掌握使用Apache Kylin多维度地分析海量数据,最终通过可视化工具展示结果。
作者简介
作者:蒋守壮
蒋守壮,现就职于万达网络科技集团有限公司,资深大数据工程师,大数据实践者。曾任平安科技资深大数据分析师和架构师,CSDN社区专家,知识库特邀编辑。目前专注于Docker、Kubernetes、Mesos、Hadoop、Spark和Kylin等技术领域。
目录
第—部分Apache Kylin基础部分
第1章Apache Kylin前世今生
1.1Apache Kylin的背景
1.2Apache Kylin的应用场景
1.3Apache Kylin的发展历程
第2章Apache Kylin前奏
2.1事实表和维表
2.2星型模型和雪花型模型
2.2.1星型模型
2.2.2雪花型模型
2.2.3星型模型示例
2.3OLAP
2.3.1OLAP分类
2.3.2OLAP的基本操作
2.4数据立方体(Data Cube)
第3章Apache Kylin工作原理和体系架构
3.1Kylin工作原理
3.2Kylin体系架构
3.3Kylin中的核心部分:Cube构建
3.4Kylin的SQL查询
3.5Kylin的特性和生态圈
第4章搭建CDH大数据平台
4.1系统环境和安装包
4.1.1系统环境
4.1.2安装包的下载
4.2准备工作:系统环境搭建
4.2.1网络配置(CDH集群所有节点1
4.2.2打通SSH,设置ssh无密码登录(所有节点)
4.3正式安装CDH:准备工作
4.4正式安装CDH5:安装配置
4.4.1CDH5的安装配置
4.4.2对Hive、HBase执行简单操作
第5章使用Kylin构建企业大数据分析平台的4种部署方式
5.1Kylin部署的架构
5.2Kylin的四种典型部署方式
第6章单独为Kylin部署HBase集群
第7章部署Kylin集群环境
7.1部署Kylin的先决条件
7.2部署Kylin集群环境
7.3为Kylin集群搭建负载均衡器
7.3.1搭建Nginx环境
7.3.2配置Nginx实现Kylin的负载均衡
第二部分Apache Kylin进阶部分
第8章Demo案例实战
8.1Sample Cube案例描述
8.2Sample Cube案例实战
8.2.1准备数据
8.2.2构建Cube
第9章多维分析的Cube创建实战
9.1Cube模型
9.2创建Cube的流程
9.2,1步骤一:Hive中事实表,以及多张维表的处理
9.2.2步骤二:Kylin中建立项目(Project)
9.2.3步骤三:Kylin中建立数据源(Data Source)
9.2.4步骤四:Kylin中建立数据模型(Model)
9.2.5步骤五:Kylin中建立Cube
9.2.6步骤六:Build Cube
9.2.7步骤七:查询Cube
第10章Build Cube的来龙去脉
10.1流程分析
10.2小结
第三部分Apache Kylin高级部分
第11章Cube优化
第12章备份Kylin的Metadata
12.1Kylin的元数据
12.2备份元数据
12.3恢复元数据
第13章使用Hive视图
13.1使用Hive视图
13.2使用视图实战
第14章Kylin的垃圾清理
14.1清理元数据
14.2清理存储器数据
第15章JDBC访问方式
第16章通过RESTful访问Kylin
第17章Kylin版本之间升级
17.1从1.5.2升级到最新版本1.5.3
17.2从1.5.1升级到1.5.2版本
17.3从Kylin l.5.2.1升级到Kylin 1.5.3实战
17.4补充内容
第18章大数据可视化实践
18.1可视化工具简述
18.2安装Kylin ODBC驱动
18.3通过Excel访问Kylin
18.4通过Power BI访问Kylin
18.4.1安装配置Power BI
18.4.2实战操作
18.5通过Tableau访问Kylin
18.6Kylin+Mondrian+Saiku
18.7实战演练:通过Saiku访问Kylin
18.7.1第一个Schema例子:myproject_pvuv_cube的演示
18.7.2第二个Schema例子:kylin_sales_cube的演示
18.7.3Saiku使用的一些问题
18.8通过Apache Zepplin访问Kylin
18.9通过Kylin的“Insight”查询
第19章使用Streaming Table构建准实时Cube
第20章快速数据立方算法
20.1快速数据立方算法概述
20.2快速数据立方算法优点和缺点
20.3获取Fast Cubing算法的优势
第四部分Apache Kylin的扩展部分
第21章大数据智能分析平台KAP
21.1大数据智能分析平台KAP概述
21.2KAP的安装部署
序言
自2011年下半年开始,我就一直关注Apache开源社区,侧重点放在大数据方面的成熟框架和产品。在这期间,陆续研究过Hadoop、Hive、HBase、Mahout、Kafka、Flume、Storm,以及近两年很火的Spark和Flink等,和很多从事大数据的朋友一样,经历过无数的夜晚,对着电脑屏幕逐行研究这些源代码,同时也看到无数的开源爱好者和技术专家加入Hadoop开源社区,贡献自己的力量,日复一日,乐此不疲。
谈起大数据,不得不提Hadoop,如今其早已发展成为了大数据处理的事实标准。Hadoop诞生于2005年,其受到Google的两篇论文(GFS和MapReduce)的启发。起初,Hadoop只是用来支撑Nutch搜索引擎的项目,从2006年开始,Hadoop脱离了Nutch,成为了Apache的顶 级项目,无论是在学术界还是工业界都得到了迅猛的发展。
如今已是2016年了,Hadoop十周岁了,这十年期间围绕其核心组件(HDFS、MapReduce、Yarn)陆续出现了一批工具,用来丰富Hadoop生态圈,解决大数据各方面的问题,这其中就包括Apache Kylin。
ApacheKylin(麒麟)是由eBay 研发并贡献给开源社区的Hadoop上的分布式大规模联机分析(OLAP)平台,它提供Hadoop之上的SQL查询接口及多维分析能力以支持大规模数据,能够处理TB乃至PB级别的分析任务,能够在亚秒级查询巨大的Hive表,并支持高并发。Apache Kylin于2014年10月开源,并于当年11月成为Apache孵化器项目,是eBay第一个贡献给Apache软件基金会的项目,也是第一个由中国团队完整贡献到Apache的项目,在这里对Apache Kylin的中国团队表示感谢,感谢贡献如此出色的大数据分析平台。
从去年开始接触Apache Kylin,我感觉很亲切,也很惊喜。当前研究的版本为0.7.1,也就是Kylin加入Apache孵化器项目后的第一个Apache发行版本,虽然当时的Kylin存在一些问题,但是其基于Hadoop设计的框架还是很有创意和特色的。经过一年多的发展,截至目前,Apache Kylin的版本已经发展到1.5.3,并且从1.5版本开始,Apache Kylin进行了重构,支持可扩展架构,支持更多的数据源、构建引擎和存储引擎,构建算法不断优化,支持与更多的可视化工具集成等。
如今,Apache Kylin已被应用在eBay、Exponential、京 东、美团、明略数据、网易及其他公司。越来越多的大数据团队开始选择Apache Kylin作为公司大数据分析平台的组成部分,满足其海量数据的多维指标实时查询分析。通过很多社区的交流分享,我发现不少朋友对Apache Kylin没有一个整体的认识,在使用过程中出现各种各样的问题,打击自信心,他们急切希望能有一本全面介绍Apache Kylin的书籍。因为我经常在博客和社区分享Apache Kylin实战方面的一些经验,所以很多朋友鼓励我能够写一本比较全面介绍Apache Kylin的书籍,帮助更多的爱好者更好地加入Apache Kylin的社区,并在生产环境中进行实践。刚开始比较犹豫,毕竟写书需要花费大量的时间和精力,而且要对读者负责,容不得半点马虎。后来有社区的几个朋友给我打电话劝说,以及清华大学出版社的夏毓彦编辑一再鼓励,还有家人的支持,我就下定决心写这本书,目的只有一个,就是希望读者能够通过这本书,对Apache Kylin有一个完整的认识,掌握各方面的技能,并最终应用在自己公司的生产环境中。
本书内容
这是一本全面介绍Apache Kylin的书籍,包括环境搭建、案例实战演示、源码分析、Cube优化等,此外还会涉及数据仓库、数据模型、OLAP、数据立方体等方面的知识。通过本书系统性学习和实战操作,朋友们将能够达到基于Apache Kylin搭建企业级大数据分析平台,并熟练掌握使用Apache Kylin多维度地分析海量数据,最终通过可视化工具展示结果。
受众人群
本书适合从事Hadoop、HBase、Hive和Kylin等方面工作的人员参考阅读,最好能掌握一点OLAP、数据立方体等数据仓库方面的知识。但是我相信这本书也适合任何想从事大数据方面工作的程序员和架构师。
代码规范和下载
本书中会涉及大量的Linux Shell命令,这些命令都是在CentOS操作系统上执行成功的,对于其他的一些Linux系统也同样适用,如有不适用的,可以查阅资料,修改命令以符合对应的操作系统。
读者服务
由于本人的写作能力有限,可能有些章节内容考虑并不全面,或者版本升级导致某些章节部分内容不是最新的。
致谢
这本书的面世,得到了很多朋友的鼎力相助,在这里感谢所有帮助我完成这本书的人。
感谢公司的同事们,特别感谢项同德和万文兵两位项目经理给予的支持和鼓励,感谢施健健给予的技术支持和帮助。
感谢CSDN和cnblogs博客中优秀的文章给予的技术支持。
感谢清华大学出版社所有为本书的出版和发行付出了辛勤劳动的人们。
最后,我要感谢我的家人,给予我的不懈支持。感谢父母帮我们照顾调皮捣蛋的宝宝;感谢妻子一如既往地照顾我的生活,给予我充足的时间用来写作。没有家人的支持和照顾,我是不可能完成这本书。
作者
2016年10月
文摘
版权页:
插图:
ISBN | 7302454523,9787302454526 |
---|---|
出版社 | 清华大学出版社 |
作者 | 蒋守壮 |
尺寸 | 16 |