
开本:16开 |
纸张:胶版纸 |
包装:平装-胶订 |
是否套装:否 |
国际标准书号ISBN:9787111774945 |
所属分类:图书>计算机/网络>计算机理论 |
商品详情
基本信息(以实物为准)
商品名称:从程序员到架构师
作者:编者王伟杰赵世辉 定 开本开
出版社:机械工业 号 页数
出版时间 版次 商品类型:图书
印刷时间 印次内容简介
本书以功能 广 深、可靠性和安全性要求 高的金融级大数据平台为参照,介绍大数据平台的架构过程及各种大数据技术,不仅包含数据采集、数据集成、作业调度、数据加工、实时数据仓库、数据服务、数据可视化、数据挖掘等常见的应用场景,还加入了数据质量、数据安全、三态投产等广受关注的内容。本书以业务场景、技术选型、技术架构对主要章节进行划分,让读者在理解大数据业务需求的基础上,了解各种大数据技术,并能够选取合适的技术来构建大数据平台。 本书内容丰富,图文并茂,实战性强,适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员,以及经理、、等快速学 数据技术,并能快速提升读者的大数据平台架构能力。
目 录
前言
部分 概述及数据处理
第章 金融大数据应用概述
金融大数据技术发展历程
大数据技术分类
金融大数据技术应用场景
第章 数据采集
数据采集业务场景
存储到的采集技术方案
前端渠道用户行为数据采集
服务端应用层数据采集
数据库层的采集
基于的数据采集整体架构
的采集技术方案前言
部分 概述及数据处理
第章 金融大数据应用概述
金融大数据技术发展历程
大数据技术分类
金融大数据技术应用场景
第章 数据采集
数据采集业务场景
存储到的采集技术方案
前端渠道用户行为数据采集
服务端应用层数据采集
数据库层的采集
基于的数据采集整体架构
的采集技术方案
采集架构与基于的采集架构的不同点
采集架构在前端、后端以及数据库端的设计
数据采集整体架构
全域数据实时采集的技术挑战
实现全域数据实时采集的技术思路
数据库数据实时采集
基于的采集平台和采集类型算子化
如何保证实时采集链路数据的一致性
全域数据实时采集的整体技术方案
数据源层
数据采集层
数据存储层
如何选择合适的采集模式
本章小结
第章 数据离线处理
数据离线处理业务场景
数据离线处理架构的主要难点
数据传输标准
可以快速自由组合大数据处理动作的架构
数据离线处理的整体技术架构
数据离线处理各环节的技术要点
企业级数据传输标准
标准文件定义
模型演进下的数据传输标准
快速自由组合大数据作业流的架构要点
大数据离线处理作业开发流程
大数据离线处理作业开发流程技术要点
数据离线处理整体架构要点
大数据开发人员是写代码还是写语句
是否使用单一的计算引擎
如何解决事务的场景问题
整体架构
离线处理动作实现要点
数据卸载
数据传输
数据预处理
数据加载
数据加工
数据复制
本章小结
第章 流式数据处理
流式数据处理业务场景
流式数据处理简介
什么是流式处理
流计算和实时计算有什么区别
流处理引擎
引擎选型思路
整体方案
方案难点和解决思路
如何处理延迟与乱序数据
如何实现维表关联
计算结果存在哪里
如何保证数据一致性
运维注意事项
监控哪些指标
优化并行度
做好数据补偿的准备
本章小结
第部分 数据使用
第章 数据服务
数据服务业务场景
构建联机同步数据服务的案例
案例扩展
数据服务的需求
规划的功能架构
建设思路
服务访问代理层
网关层
服务管理层
数据服务
数据访问代理(查询引擎)
整体架构和时序图示例
整体架构
时序图示例
注意事项
本章小结
第章 数据加速
数据加速业务场景
技术选型
选型维度介绍
、、和的对比
和的对比
和的对比
选型结论
整体架构介绍
功能架构介绍
业务流程介绍
基于的实战介绍
基于的数据链路
部署架构
部署规划
配置经验
基于的实战介绍
基于的数据链路
配置经验
本章小结
第部分 数据治理
第章 元数据管理
元数据管理的业务背景
元数据管理的目标
元数据管理的功能需求
详细设计思路和实现方案
元数据模型
元数据存储
元数据采集与登记
元数据设计与发布
数据权限管理
元数据应用
整体技术架构介绍
本章小结
第章 数据安全管理
数据安全管理业务背景
需求讨论
数据安全流程
识别和脱敏的技术难点
如何快速扫描和识别成千上万张表
如何即时解析用户的语句获取查询的表字段
如何保存识别出来的数据保密等级
识别大量数据
识别数据的主要步骤和思路
自动识别的技术方案
动态脱敏的技术方案
动态脱敏的主要流程
使用解析
动态脱敏接口设计
用保存识别出来的数据保密等级
本章小结
第章 数据质量管理
数据质量管理业务背景
技术语言业务化
完善数据字典
元数据信息可视化
检核规则模板化
数据技术检核任务的自动化生成
技术检核的难点
技术检核任务的自动化
大数据文件的检核
检核数据方法
大文件快速检核技术实现方案
方案的权衡点
端到端的架构
本章小结
第部分 数据部署与运维
章 大数据作业调度
作业调度的技术难点
架构设计
作业编排
资源管理
作业监控运维
非功能要求
作业调度整体架构
经典两层作业调度架构
早期分布式作业调度架构
基于的分布式作业调度架构
作业排程
作业排程的主要步骤和思路
基于的智能化作业排程方案
作业资源管理
调度运维服务
作业影响性分析
故障诊断
调度非功能设计
性能
可靠性
业务使用效果及局限性总结
作业调度发展趋势与未来规划
本章小结
章 大数据计算资源管理
大数据计算资源管理业务场景
资源管理业务背景
资源类型
大数据平台资源规划
跨资源管理
资源使用监控
资源管理技术实现思路
资源管理技术实现简介
基于的资源管理实现
基于的资源管理实现
资源管理解决方案设计
资源管理整体流程
资源管理整体实现架构
资源管理中灵活资源配置场景介绍
资源管理设计不足探讨
本章小结
章 三态投产
三态投产业务场景
大数据三态
常规软件投产
自研投产部署方案的技术难点
解决思路
要在三态中投产的大数据应用内容
导入导出的范围控制
导入导出的性能问题
制品和平台及其组件版本的兼容性
制品的数据完整性
整体方案介绍
整体架构
方案要点
本章小结
第部分 综合应用场景
章 流批一体
流批一体业务背景
流批一体初步架构
场景问题解决思路
架构方案
架构
存在的问题
流批同写一张表的架构
什么是流批同写一张表
技术选型
原理介绍
架构方案
要点和技术难点
待解决的问题
使用效果
处理层面的流批一体
技术选型
流批处理一体架构方案
关于架构
选择什么样的流批一体架构方案
种流批一体架构方案对比
流批一体是否会取代流处理或批处理
本章小结
章 数据湖应用
什么是数据湖
为什么要建设数据湖
数据湖的规划设计
数据湖和数据仓库的区别与关系
数据湖架构规划
数据湖的技术选型
数据获取
数据存储
数据处理
访问分析
数据管理
数据湖的整体架构
技术架构
数据链路介绍
数据湖建设中的问题
本章小结
章 建设自主可控的信创大数据平台
建设大数据平台的业务背景
为什么要建设大数据平台
建设大数据平台的架构需求
待解决的架构问题
组件划分及设计
组件划分
各组件设计思路
组件间协同
信创适配
什么是信创
信创环境适配常见问题
适配工作
整体架构
本章小结
章 大数据发展趋势与未来规划
大数据领域新技术的发展
新型数据存储与计算架构
实时数据处理技术
数据治理和安全隐私保护技术
大数据与其他技术领域的融合发展
大数据技术领域内部融合
大数据与人工智能技术
大数据与物联网技术
大数据与云原生技术
技术人员的应对措施
创新思维和跨界思维
持续学习的态度
关注技术的业务价值而不是技术本身
大数据开发中的几个误区
重“技术”不重“业务”
重“继承”不重“创新”
重“功能”不重“非功能”
技术上重“深度”不重“广度”
后记
显示全部信息
作者简介
拥有近年互联网研发经验,涉及保险、电商、银行等行业,曾带领团队完成多个架构搭建改造项目,具有丰富的架构迁移、大数据计算框架搭建、亿级大数据量系统优化经验,在工程化落地、中台化改造、等方面也有大量实践。编者团队为大型国有银行 团队,具有丰富的大型金融级大数据平台搭建、改造、运维、管理经验。
基本信息(以实物为准)
商品名称:从程序员到架构师
作者:编者王伟杰赵世辉 定 开本开
出版社:机械工业 号 页数
出版时间 版次 商品类型:图书
印刷时间 印次内容简介
本书以功能 广 深、可靠性和安全性要求 高的金融级大数据平台为参照,介绍大数据平台的架构过程及各种大数据技术,不仅包含数据采集、数据集成、作业调度、数据加工、实时数据仓库、数据服务、数据可视化、数据挖掘等常见的应用场景,还加入了数据质量、数据安全、三态投产等广受关注的内容。本书以业务场景、技术选型、技术架构对主要章节进行划分,让读者在理解大数据业务需求的基础上,了解各种大数据技术,并能够选取合适的技术来构建大数据平台。 本书内容丰富,图文并茂,实战性强,适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员,以及经理、、等快速学 数据技术,并能快速提升读者的大数据平台架构能力。
目 录
前言
部分 概述及数据处理
第章 金融大数据应用概述
金融大数据技术发展历程
大数据技术分类
金融大数据技术应用场景
第章 数据采集
数据采集业务场景
存储到的采集技术方案
前端渠道用户行为数据采集
服务端应用层数据采集
数据库层的采集
基于的数据采集整体架构
的采集技术方案前言
部分 概述及数据处理
第章 金融大数据应用概述
金融大数据技术发展历程
大数据技术分类
金融大数据技术应用场景
第章 数据采集
数据采集业务场景
存储到的采集技术方案
前端渠道用户行为数据采集
服务端应用层数据采集
数据库层的采集
基于的数据采集整体架构
的采集技术方案
采集架构与基于的采集架构的不同点
采集架构在前端、后端以及数据库端的设计
数据采集整体架构
全域数据实时采集的技术挑战
实现全域数据实时采集的技术思路
数据库数据实时采集
基于的采集平台和采集类型算子化
如何保证实时采集链路数据的一致性
全域数据实时采集的整体技术方案
数据源层
数据采集层
数据存储层
如何选择合适的采集模式
本章小结
第章 数据离线处理
数据离线处理业务场景
数据离线处理架构的主要难点
数据传输标准
可以快速自由组合大数据处理动作的架构
数据离线处理的整体技术架构
数据离线处理各环节的技术要点
企业级数据传输标准
标准文件定义
模型演进下的数据传输标准
快速自由组合大数据作业流的架构要点
大数据离线处理作业开发流程
大数据离线处理作业开发流程技术要点
数据离线处理整体架构要点
大数据开发人员是写代码还是写语句
是否使用单一的计算引擎
如何解决事务的场景问题
整体架构
离线处理动作实现要点
数据卸载
数据传输
数据预处理
数据加载
数据加工
数据复制
本章小结
第章 流式数据处理
流式数据处理业务场景
流式数据处理简介
什么是流式处理
流计算和实时计算有什么区别
流处理引擎
引擎选型思路
整体方案
方案难点和解决思路
如何处理延迟与乱序数据
如何实现维表关联
计算结果存在哪里
如何保证数据一致性
运维注意事项
监控哪些指标
优化并行度
做好数据补偿的准备
本章小结
第部分 数据使用
第章 数据服务
数据服务业务场景
构建联机同步数据服务的案例
案例扩展
数据服务的需求
规划的功能架构
建设思路
服务访问代理层
网关层
服务管理层
数据服务
数据访问代理(查询引擎)
整体架构和时序图示例
整体架构
时序图示例
注意事项
本章小结
第章 数据加速
数据加速业务场景
技术选型
选型维度介绍
、、和的对比
和的对比
和的对比
选型结论
整体架构介绍
功能架构介绍
业务流程介绍
基于的实战介绍
基于的数据链路
部署架构
部署规划
配置经验
基于的实战介绍
基于的数据链路
配置经验
本章小结
第部分 数据治理
第章 元数据管理
元数据管理的业务背景
元数据管理的目标
元数据管理的功能需求
详细设计思路和实现方案
元数据模型
元数据存储
元数据采集与登记
元数据设计与发布
数据权限管理
元数据应用
整体技术架构介绍
本章小结
第章 数据安全管理
数据安全管理业务背景
需求讨论
数据安全流程
识别和脱敏的技术难点
如何快速扫描和识别成千上万张表
如何即时解析用户的语句获取查询的表字段
如何保存识别出来的数据保密等级
识别大量数据
识别数据的主要步骤和思路
自动识别的技术方案
动态脱敏的技术方案
动态脱敏的主要流程
使用解析
动态脱敏接口设计
用保存识别出来的数据保密等级
本章小结
第章 数据质量管理
数据质量管理业务背景
技术语言业务化
完善数据字典
元数据信息可视化
检核规则模板化
数据技术检核任务的自动化生成
技术检核的难点
技术检核任务的自动化
大数据文件的检核
检核数据方法
大文件快速检核技术实现方案
方案的权衡点
端到端的架构
本章小结
第部分 数据部署与运维
章 大数据作业调度
作业调度的技术难点
架构设计
作业编排
资源管理
作业监控运维
非功能要求
作业调度整体架构
经典两层作业调度架构
早期分布式作业调度架构
基于的分布式作业调度架构
作业排程
作业排程的主要步骤和思路
基于的智能化作业排程方案
作业资源管理
调度运维服务
作业影响性分析
故障诊断
调度非功能设计
性能
可靠性
业务使用效果及局限性总结
作业调度发展趋势与未来规划
本章小结
章 大数据计算资源管理
大数据计算资源管理业务场景
资源管理业务背景
资源类型
大数据平台资源规划
跨资源管理
资源使用监控
资源管理技术实现思路
资源管理技术实现简介
基于的资源管理实现
基于的资源管理实现
资源管理解决方案设计
资源管理整体流程
资源管理整体实现架构
资源管理中灵活资源配置场景介绍
资源管理设计不足探讨
本章小结
章 三态投产
三态投产业务场景
大数据三态
常规软件投产
自研投产部署方案的技术难点
解决思路
要在三态中投产的大数据应用内容
导入导出的范围控制
导入导出的性能问题
制品和平台及其组件版本的兼容性
制品的数据完整性
整体方案介绍
整体架构
方案要点
本章小结
第部分 综合应用场景
章 流批一体
流批一体业务背景
流批一体初步架构
场景问题解决思路
架构方案
架构
存在的问题
流批同写一张表的架构
什么是流批同写一张表
技术选型
原理介绍
架构方案
要点和技术难点
待解决的问题
使用效果
处理层面的流批一体
技术选型
流批处理一体架构方案
关于架构
选择什么样的流批一体架构方案
种流批一体架构方案对比
流批一体是否会取代流处理或批处理
本章小结
章 数据湖应用
什么是数据湖
为什么要建设数据湖
数据湖的规划设计
数据湖和数据仓库的区别与关系
数据湖架构规划
数据湖的技术选型
数据获取
数据存储
数据处理
访问分析
数据管理
数据湖的整体架构
技术架构
数据链路介绍
数据湖建设中的问题
本章小结
章 建设自主可控的信创大数据平台
建设大数据平台的业务背景
为什么要建设大数据平台
建设大数据平台的架构需求
待解决的架构问题
组件划分及设计
组件划分
各组件设计思路
组件间协同
信创适配
什么是信创
信创环境适配常见问题
适配工作
整体架构
本章小结
章 大数据发展趋势与未来规划
大数据领域新技术的发展
新型数据存储与计算架构
实时数据处理技术
数据治理和安全隐私保护技术
大数据与其他技术领域的融合发展
大数据技术领域内部融合
大数据与人工智能技术
大数据与物联网技术
大数据与云原生技术
技术人员的应对措施
创新思维和跨界思维
持续学习的态度
关注技术的业务价值而不是技术本身
大数据开发中的几个误区
重“技术”不重“业务”
重“继承”不重“创新”
重“功能”不重“非功能”
技术上重“深度”不重“广度”
后记
显示全部信息
作者简介
拥有近年互联网研发经验,涉及保险、电商、银行等行业,曾带领团队完成多个架构搭建改造项目,具有丰富的架构迁移、大数据计算框架搭建、亿级大数据量系统优化经验,在工程化落地、中台化改造、等方面也有大量实践。编者团队为大型国有银行 团队,具有丰富的大型金融级大数据平台搭建、改造、运维、管理经验。