| 开本:16开 |
| 纸张:胶版纸 |
| 包装:平装-胶订 |
| 是否套装:否 |
| 国际标准书号ISBN:9787111783299 |
| 所属分类:图书>计算机/网络>硬件外部设备维修 |
编辑推荐
本书是数据工程师的实战宝典!从实体消解基础概念切入,系统拆解数据标准化、文本模糊匹配(距离、算法)、概率模型(模型、贝叶斯因子)、聚类分块等核心技术,更独家涵盖框架、谷歌云集群部署、企业知识图谱等前沿工具。作者以真实金融反欺诈案例贯穿全书,手把手教学代码实现,并前瞻隐私集合求交()等合规技术。经工具作者 力荐,既是新手入门教材,也是资深从业者的技术进阶手册。
商品详情
目 录
前言
第章 实体消解入门
什么是实体消解
实体消解的作用
实体消解的主要挑战
姓名缺少专享性
命名约定不一致
数据获取不一致
示例
故意模糊处理
匹配组合
盲目匹配
实体消解过程
数据标准化前言
第章 实体消解入门
什么是实体消解
实体消解的作用
实体消解的主要挑战
姓名缺少专享性
命名约定不一致
数据获取不一致
示例
故意模糊处理
匹配组合
盲目匹配
实体消解过程
数据标准化
记录分块
属性比较
匹配分类
聚类
规范化
示例
评估结果
正式开始
第章 数据标准化
案例
设置环境
获取数据
维基百科数据
数据
清洗数据
清洗维基百科数据
清洗数据
比较属性
选区
评估结果
计算样本
总结
第章 文本匹配
编辑距离匹配
距离
相似度
相似度
语音匹配
算法
算法
技术比较
案例
全面相似度比较
评估结果
总结
第章 概率匹配
案例
单一属性匹配概率
名字匹配概率
姓氏匹配概率
多属性匹配概率
概率模型
贝叶斯定理
值
值
λ值
贝叶斯因子
模型
匹配权重
期望优选化算法
第一次迭代
第二次迭代
第三次迭代
入门
配置
匹配结果
总结
第章 记录分块
案例
获取数据
维基百科数据
英国公司注册署数据
数据标准化
维基百科数据
英国公司注册署数据
记录分块与属性比较
使用进行记录分块
比较属性
匹配分类
评估结果
总结
第章 匹配公司
案例
获取数据
数据标准化
英国公司注册署数据
英国海事及海岸警卫署数据
记录分块与属性比较
匹配分类
评估结果
匹配新实体
总结
第章 聚类
简单准确匹配聚类
近似匹配聚类
案例
获取数据
数据标准化
记录分块与属性比较
数据分析
期望优选化分块规则
匹配分类与聚类
簇可视化
聚类分析
总结
第章 使用谷歌云平台进行扩展
谷歌云设置
创建集群
配置集群
使用进行实体消解
评估结果
整理工作
总结
第章 实体消解云服务
简介
企业知识图谱
模式映射
消解作业
处理结果
实体消解客户端
评估结果
总结
第章 利用记录关联技术保护隐私
隐私集合求交简介
原理
基于的协议
布隆过滤器
格伦布编码集
案例:使用
设置环境
服务器代码
客户端代码
完整的和公司注册署样本示例
总结
第章 进一步探讨
数据问题探讨
非结构化数据问题
数据质量问题
时效性问题
属性比较
集合匹配
地理编码位置匹配
汇总比较
后处理
图形表示
实时性问题
评估结果
成对方法
基于簇的方法
实体消解的未来
显示全部信息
本书是数据工程师的实战宝典!从实体消解基础概念切入,系统拆解数据标准化、文本模糊匹配(距离、算法)、概率模型(模型、贝叶斯因子)、聚类分块等核心技术,更独家涵盖框架、谷歌云集群部署、企业知识图谱等前沿工具。作者以真实金融反欺诈案例贯穿全书,手把手教学代码实现,并前瞻隐私集合求交()等合规技术。经工具作者 力荐,既是新手入门教材,也是资深从业者的技术进阶手册。
商品详情
目 录
前言
第章 实体消解入门
什么是实体消解
实体消解的作用
实体消解的主要挑战
姓名缺少专享性
命名约定不一致
数据获取不一致
示例
故意模糊处理
匹配组合
盲目匹配
实体消解过程
数据标准化前言
第章 实体消解入门
什么是实体消解
实体消解的作用
实体消解的主要挑战
姓名缺少专享性
命名约定不一致
数据获取不一致
示例
故意模糊处理
匹配组合
盲目匹配
实体消解过程
数据标准化
记录分块
属性比较
匹配分类
聚类
规范化
示例
评估结果
正式开始
第章 数据标准化
案例
设置环境
获取数据
维基百科数据
数据
清洗数据
清洗维基百科数据
清洗数据
比较属性
选区
评估结果
计算样本
总结
第章 文本匹配
编辑距离匹配
距离
相似度
相似度
语音匹配
算法
算法
技术比较
案例
全面相似度比较
评估结果
总结
第章 概率匹配
案例
单一属性匹配概率
名字匹配概率
姓氏匹配概率
多属性匹配概率
概率模型
贝叶斯定理
值
值
λ值
贝叶斯因子
模型
匹配权重
期望优选化算法
第一次迭代
第二次迭代
第三次迭代
入门
配置
匹配结果
总结
第章 记录分块
案例
获取数据
维基百科数据
英国公司注册署数据
数据标准化
维基百科数据
英国公司注册署数据
记录分块与属性比较
使用进行记录分块
比较属性
匹配分类
评估结果
总结
第章 匹配公司
案例
获取数据
数据标准化
英国公司注册署数据
英国海事及海岸警卫署数据
记录分块与属性比较
匹配分类
评估结果
匹配新实体
总结
第章 聚类
简单准确匹配聚类
近似匹配聚类
案例
获取数据
数据标准化
记录分块与属性比较
数据分析
期望优选化分块规则
匹配分类与聚类
簇可视化
聚类分析
总结
第章 使用谷歌云平台进行扩展
谷歌云设置
创建集群
配置集群
使用进行实体消解
评估结果
整理工作
总结
第章 实体消解云服务
简介
企业知识图谱
模式映射
消解作业
处理结果
实体消解客户端
评估结果
总结
第章 利用记录关联技术保护隐私
隐私集合求交简介
原理
基于的协议
布隆过滤器
格伦布编码集
案例:使用
设置环境
服务器代码
客户端代码
完整的和公司注册署样本示例
总结
第章 进一步探讨
数据问题探讨
非结构化数据问题
数据质量问题
时效性问题
属性比较
集合匹配
地理编码位置匹配
汇总比较
后处理
图形表示
实时性问题
评估结果
成对方法
基于簇的方法
实体消解的未来
显示全部信息