正版 Apache Airflow 数据编排实战 清华大学出版社9787302618157 9787302323112

配送至
$ $ USD 美元

开本:3开
纸张:胶版纸
包装:平装
是否套装:否
国际标准书号ISBN:9787302323112
所属分类:图书>计算机/网络>操作系统/系统开发>WINDOWS
商品详情
书名 数据编排实战
出版社:清华大学出版社

作者荷 巴斯·哈伦斯拉克( ) 著
出版日期年月


数据管道通过整合、清理、分析、可视化等方式来管理初始收集的数据流。 提供了个统的平台,可以使用它设计、实施、监控和维护数据的流动。具有易于使用的、用的选项以及灵活的脚本,这些使能够非常轻松地完成任何数据管理任务。

在《 数据编排实战》中,介绍了如何构建和维护有效的数据管道。与你同探索常见的使用模式,括聚合多个数据源、连接到数据湖以及云端署。可以将本书作为的实用指南,本书涵盖了为提供动力的有向无环图的各方面知识,以及如何根据工作需求对其进行自定义的技术。

主要内容

● 构建、测试及署管道作为

● 自动对数据进行移动和转换

● 使用回填技术分析数据集

● 开发自定义组件

● 在生产环境中搭建

第Ⅰ分 入门
第章 遇见
数据管道介绍
数据管道的图形表示
运行管道图
管道图与顺序脚本
使用工作流管理器运行数据流
介绍
通过代码灵活定义数据管道
调度并执行数据管道
监控和处理故障
增量载入和回填
何时使用
选择的原因
不使用的理由
本书的其余分
本章小结
第章 深度解析
从大量数据源中收集数据
编写你的第个
任务与
运行任意代码
在中运行
在环境中运行
在容器中运行
使用图形界面
运行定时任务
处理失败的任务
本章小结
第章 中的调度
示例:处理用户事件
定期执行
使用调度器计划性运行
基于的时间间隔
基于频率的时间间隔
增量处理数据
获取增量事件数据
使用执行日期的动态时间参考
对数据执行分区
理解的执行日期
使用回填技术填补过去的空白
任务设计的佳实践
原子性
幂等性
本章小结
第章 使用 对任务进行模板化
为准备数据
任务和模板
对使用参数模板
模板中可用的变量及表达式
对使用模板
为提供变量
检查模板化参数
连接到其他系统
本章小结
第章 定义任务之间的依赖关系
基本依赖关系
线性依赖关系
扇入扇出依赖
分支
在任务内执行分支作
在中使用分支技术
带有条件的任务
在任务内使用条件
对使用条件
使用内置
触发条件详解
什么是触发规则
失败的影响
其他触发规则
在任务之间共享数据
使用共享数据
的适用场景
使用自定义后端存储
使用 连接任务
使用 简化任务
的适用场景
本章小结
第Ⅱ分 深入学
第章 触发工作流
带有传感器的轮询条件
轮询自定义条件
传感器的异常情况
触发其他
使用执行回填作
轮询其他 的状态
使用启动工作流
本章小结
第章 与外系统通信
连接到云服务
安装额外的依赖软件
开发个机器学模型
在本地开发外系统程序
在系统之间移动数据
实现
将繁重的任务“外”出去
本章小结
第章 建自定义组件
从开始
模拟电影评分
从获取评分数据
构建具体的
建自定义
设定自定义
使用构建
构建自定义
建自定义
建用于获取评分数据的
建自定义传感器
将你的组件打
引导
安装你的
本章小结
第章 测试
开始测试
所有的完整性测试
设置管道
编写单元测试
项目结构
使用磁盘上的文件测试
在测试中使用和任务
使用测试进行开发
使用模拟生产环境
建环境
本章小结
第章 在容器中运行任务
同时使用多个不同
所面临的挑战
接口和实现
复杂且相互冲突的依赖关系
转向通用
容器
什么是容器
运行第个容器
建映像
使用卷持久化数据
容器与
容器中的任务
为什么使用容器
在中运行任务
使用
为任务建容器映像
使用任务建
基于的工作流
在中运行任务
介绍
设置
使用
诊断相关的问题
与基于的工作流的区别
本章小结
第Ⅲ分 实践
第章 佳实现
编写清晰的
使用风格约定
集中管理凭证
统配置详细信息
避在定义中计算
使用工厂函数生成通用模式
使用任务组对相关任务进行分组
为重大变更建新的
设计可重用的任务
要求任务始满足幂等性
任务结果的确定性
使用函数式范式设计任务
高效处理数据
限制处理的数据量
增量载入与增量处理
缓存中间数据
不要将数据存储在本地文件系统
将工作卸载到外系统或源系统
管理资源
使用资源池管理并发
使用和告警来检测长时间运行的任务
本章小结
第章 在生产环境中使用
架构
挑选适合的执行器
为配置
深入了解调度器
安装每个执行器
设置
设置
设置
设置
捕获所有进程的日志
捕获服务器输出
捕获调度器输出
捕获任务日志
将日志发送到远程存储
可视化及监控指标
从收集指标
配置以发送指标
配置以收集指标
使用建仪表板
应监控的指标
如何获得失败任务的通知
和内的告警
定义服务级别协议
可伸缩性与性能
控制大运行任务数
系统性能配置
运行多个调度器
本章小结
第章 性
护 界面
将用户添加到界面
配置界面
加密静态数据
连接服务
理解
从服务获取用户
加密与服务器的通信
了解
为配置书
从认证管理系统获取凭证
本章小结
第章 实战:探索游览纽约市的快方式
理解数据
文件共享

确定算法
提取数据
下载 数据
下载 数据
对数据应用类似的转换
构建数据管道
开发幂等的数据管道
本章小结
第Ⅳ分 在云端
第章 在云端
设计云端署策略
云端用的和
托管服务

适用于 的
托管工作流
选择署策略
本章小结
第章 在中运行
在中署
选择云服务
设计网络
添加同步
使用扩展
后续步骤
针对的和
用例:使用 进行无服务器的电影排名
用例概要
设置资源

环境清理
本章小结
第章 在中使用
在中署
选择服务
设计网络
使用扩展
后续步骤
针对设计的和
示例:在上运行无服务器的电影程序
示例概要
设定资源

环境清理
本章小结
第章 在中运行
在中署
选择服务
使用在上

与服务集成
设计网络
通过扩展
针对的和
用例:在上运行无服务器的电影评级
上传到
将数据导入
提取高评分
本章小结
附录 运行示例代码
附录 和 中的结构
附录 指标映射