Apache Kylin权威指南 9787111557012,7111557018

配送至
$ $ USD 美元

编辑推荐

《Apache Kylin权威指南》由机械工业出版社出版。

名人推荐

Apache Kylin是令人惊喜的,首个由中国团队主导的Apache项目。不仅具有很强的技术领先性,也具有较好的市场价值,它已经成为多个企业的大数据分析平台的关键组成部分。本书将为国内开发者打开一扇窗,不仅详细地介绍Kylin的技术内容,还能让开发者获得建立成功开源项目的经验。
——栗蔚 中国信息通信研究院标准所主任工程师,高级工程师、云计算开源产业联盟秘书长
Apache Kylin在国美数据化运营的实践中提供了非常完美的解决方案,借此机会表示深深的感谢!国美在线作为国内主力电商之一,大数据部门每日都需处理海量数据。如何对大数据快速剥茧抽丝,从而为管理层提供决策支持,同时指导业务高效运营是我们之前面临的一个重大挑战。Apache Kylin是我们评估了诸多方案后最终的选择,实践证明也是最符合我们电商场景的OLAP引擎。目前从网站前端行为数据到后端的商业数据的贯通,从T+1的批量场景到实时计算,我们都从Apache Kylin找到了很好的解决方案,并最终成就了“国美运营参谋”的产品。相信本书一定会帮到在超大规模数据集上做需求交互式分析的同仁。
——于立国 网易数据科学中心技术总监
大数据的OLAP应用极具挑战,也是困扰我们良久的问题,而Apache Kylin哈好填补了这个空白领域,所以Kylin裉快就在网易各大互联网业务中大范围应用,其海量数据秒级分析能力广受业务团队好评。本书来自Apache核心团队,是不可多得的权威著作。
——余利华 网易数据科学中心技术总监

作者简介

本书将由李扬为首的麒麟技术团队撰写。团队是Apache Kylin的主创团队,是了解麒麟技术的一个团队。
李扬是大数据架构师和工程师,专注大数据分析技术。他是Apache Kylin管理委员会成员,也是Kyligence Inc.(一家专业提供大数据商务智能服务的创业公司)创始人之一。李扬是Apache Kylin主创团队的架构师和技术负责人,在eBay期间从2014年开始开发Kylin项目。之前,李扬在IBM工作8年,在摩根士丹利工作2年。在IBM期间,他是“杰出技术贡献奖”的获奖者,曾担任InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构。在摩根士丹利期间,李扬担任副总裁,负责全球监管报表基础架构。

目录

推荐序一
推荐序二
推荐序三
推荐序四
前言
第1章ApacheKylin概述
1.1背景和历史
1.2ApacheKyin的使命
1.3ApacheKylin的工作原理
1.3.1维度和度量简介
1.3.2Cube和Cuboid
1.3.3工作原理。
1.4ApacheKylin的技术架构
1.5ApacheKylin的主要特点
1.5.1标准SQL接口
1.5.2支持超大数据集
1.5.3亚秒级响应
1.5.4可伸缩性和高吞吐率
1.5.5BI及可视化工具集成
1.6与其他开源产品比较
1.7小结第2章快速入门
2.1核心概念
2.1.1数据仓库、OLAP与BI
2.1.2维度和度量
2.1.3事实表和维度表
2.1.4Cube、Cuboid和
CubeSegment
2.2在Hive中准备数据
2.2.1星形模型
2.2.2维度表的设计
2.2.3Hive表分区
2.2.4了解维度的基数
2.2.5SampleData
2.3设计Cube
2.3.1导入Hive表定义
2.3.2创建数据模型
2.3.3创建CubP
2.4构建Cube
2.4.1全量构建和增量构建
2.4.2历史数据刷新
2.4.3合并
2.5查询CubP
2.6SQL参考
2.7小结
第3章增量构建
3.1为什么要增量构建
3.2设计增量Cube
3.2.1设计增量Cube的前提
3.2.2增量Cube的创建
3.3触发增量构建
3.3.1WebGUI触发
3.3.2构建相关的RestAPI
3.4管理Cube碎片
3.4.1合并Segment
3.4.2自动合并
3.4.3保留Segment
3.4.4数据持续更新
3.5小结
第4章流式构建
4.1为什么要流式构建
4.2准备流式数据
4.2.1数据格式
4.2.2消息队列
4.2.3创建Schema
4.3设计流式Cube
4.3.1创建Model
4.3.2创建Cube
4.4流式构建原理
4.5触发流式构建
4.5.1单次触发
4.5.2自动化多次触发
4.5.3出错处理
4.6小结
第5章查询和可视化
5.1WebGUI
5.1.1查询
5.1.2显示结果
5.2RestAPI
5.2.1查询认证
5.2.2查询请求参数
5.2.3查询返回结果
5.3ODBC
5.4JDBC
5.4.1获得驱动包
5.4.2认证
5.4.3URL格式
5.4.4获取元数据信息
5.5通过Tableau访问Kylin
5.5.1连接Kylin数据源
5.5.2设计数据模型
5.5.3通过Live方式连接
5.5.4白定义SQL
5.5.5可视化
5.5.6发布到TableauServer
5.6Zeppelin集成
5.6.1Zeppelin架构简介
5.6.2Kylinlnterpreter的工作原理
5.6.3如何使用Zeppelin
访问Kylin
5.7小结
第6章Cube优化
6.1Cuboid剪枝优化
6.1.1维度的诅咒
6.1.2检查Cuboid数量
6.1.3检查Cube大小
6.1.4空间与时间的平衡
6.2剪枝优化的工具
6.2.1使用衍生维度
6.2.2使用聚合组
6.3并发粒度优化
6.4Rowkeys优化
6.4.1编码
6.4.2按维度分片
6.4.3调整Rowkeys顺序
6.5其他优化
6.5.1降低度量精度
6.5.2及时清理无用的Segment
6.6小结
第7章应用案例分析
7.1基本多维分析
7.1.1数据集
7.1.2数据导入
7.1.3创建数据模型
7.1.4创建Cube
7.1.5构建Cube
7.1.6SQL查询
7.2流式分析
7.2.1Kafka数据源
7.2.2创建数据表
7.2.3创建数据模型
7.2.4创建Cube
7.2.5构建Cube
7.2.6SQL查询
7.3小结
第8章扩展ApacheKylin
8.1可扩展式架构
8.1.1工作原理
8.1.2三大主要接口
8.2计算引擎扩展
8.2.1EnglneFactory
8.2.2MRBatchCubingEngine2
8.2.3BatchCubingjobBuilder2
8.2.4IMRlnput
8.2.5IMROutput2
8.3数据源扩展
8.4存储扩展
8.5聚合类型扩展
8.5.1聚合的JSON定义
8.5.2聚合类型工厂
8.5.3聚合类型的实现
8.6维度编码扩展
8.6.1维度编码的JSON定义
8.6.2维度编码工厂
8.6.3维度编码的实现
8.7小结
第9章ApacheKylin的企业级功能
9.1身份验证
9.1.1自定义验证
9.1.2LDAP验证
9.1.3单点登录
9.2授权
9.3小结
第10章运维管理
10.1安装和配置
10.1.1必备条件
10.1.2快速启动ApacheKylin
10.1.3配置ApacheKylin
10.1.4企业部署
10.2监控和诊断
10.2.1日志
10.2.2任务报警
10.2.3诊断工具
10.3日常维护
10.3.1基本运维
数据备份
数据恢复
10.3.4系统升级
10.3.5垃圾清理
10.4常见问题和修复
10.5获得社区帮助
10.5.1邮件列表
10.5.2JIRA
10.6小结
第11章参与开源
11.1ApacheKylin的开源历程
11.2为什么参与开源
11.3Apache开源社区简介
11.3.1简介
11.3.2组织构成与运作模式
11.3.3项目角色
……
11.4如何贡献到开源社区
11.4.1什么是贡献
11.4.2如何贡献
11.5礼仪与文化
11.6如何参与ApacheKylin
11.7小结
第12章ApacheKylin的未来
12.1大规模流式构建
12.2拥抱Spark技术栈
12.3更快的存储和查询
12.4前端展现及与BI工具的整合
12.5高级OLAP函数
12.6展望

文摘

版权页:



插图:
ISBN9787111557012,7111557018
出版社机械工业出版社
作者Apache Kylin核心团队
尺寸16