| 开本:16开 |
| 纸张:胶版纸 |
| 包装:平装-胶订 |
| 是否套装:否 |
| 国际标准书号ISBN:9787115575654 |
| 所属分类:图书>计算机/网络>计算机理论 |
新华书店正版,关注店铺成为会员可享店铺专属优惠,团购客户请咨询在线客服!重磅推荐
编辑推荐
内容新年兴起后近期新的搜索引擎进展,例如实时搜索、语义搜索、个性化搜索等。 代码示例丰富:大量的代码示例,可帮助读者深入了解搜索引擎的实现细节。 真实的行业应用:网页搜索引擎、流媒体平台搜索引擎和大语言模型对搜索引擎的影响。
内容简介
本书系统介绍了搜索引擎的技术发展历程和前沿趋势,内容分为三大部分:搜索引擎基础、深度信息检索模型与算法以及搜索前沿。第一部分涵盖了搜索引擎的核心架构与关键技术,包括基本系统架构、查询理解、索引技术、关键词检索、排序学习等内容,为读者提供了现代搜索系统的技术框架和实践参考。第二部分详细探讨了深度学习技术在信息检索中的应用,包括深度召回模型、近邻检索算法、深度相关性模型、深度排序模型等,并通过案例展示了如何将这些技术应用于实际问题。第三部分则聚焦于搜索前沿技术,介绍了大语言模型基础、搜索实践、生成式信息检索,探讨了搜索时代的技术特点及未来发展方向。本书附有丰富的实践案例和代码示例,可以帮助读者将理论知识付诸实践,既适合想了解搜索相关内容的初学者学习,也适合搜索领域的相关从业者参考。
作者简介
邹敏,中国科学院数学研究所硕士,现任昆仑万维集团大模型团队算法总监。曾于微软必应()从事搜索引擎算法的研发工作,后任美国公司搜索团队负责人,作为资深研发经理主导了与搜索系统的建设。长期专注于信息检索、大模型与智能体技术领域,拥有项发明专利。
目 录
第一部分搜索引擎基础
第章搜索引擎的基本系统架构
网页抓取
网页抓取过程
网页抓取系统的组成部分
爬虫系统的衡量指标
内容理解
页面分析
网页分类
索引构建
索引的数据源
索引结构与压缩算法
索引的分片、复本与分级策略
查询理解第一部分搜索引擎基础
第章搜索引擎的基本系统架构
网页抓取
网页抓取过程
网页抓取系统的组成部分
爬虫系统的衡量指标
内容理解
页面分析
网页分类
索引构建
索引的数据源
索引结构与压缩算法
索引的分片、复本与分级策略
查询理解
查询词预处理
查询改写
查询扩展
时效性分析
查询分类
召回
关键词召回
语义召回
排序
特征工程
排序模型
多级排序框架
其他
小结
第章查询理解
查询语法与查询解析
基本查询语法
查询解析
查询词预处理
拼写纠错
词权重计算
词权重模型
词权重模型训练过程
词权重应用
其他词权重计算方法
查询分类
垃圾查询识别
时效性查询识别
查询扩展
基于词典的查询扩展
基于相关文档的查询扩展
基于向量化表示的查询扩展
基于大语言模型的查询扩展
查询改写
基于机器翻译模型的查询改写
基于大语言模型的查询改写
小结
第章倒排索引技术
倒排索引的基本结构
词典
倒排列表
索引压缩算法
索引块压缩算法
字节压缩算法
索引结构示例
索引合并
倒排列表的基本合并操作
基于二分查找的倒排索引合并
基于跳表的倒排索引合并
倒排索引的构建
关键词分词
索引构建
倒排索引的分布式服务
案例一:使用进行搜索
案例二:基于的关键词索引
小结
第章关键词检索
预备知识与准备工作
文本相关性
命中频次特征
命中紧密度特征
语言模型特征
意图匹配特征
权威性计算
文档的时效性计算
点击反馈
特征融合
线性组合
相关性优先组合
机器学习组合
混合组合
小结
第章排序学习
排序效果的评价指标
准确率与召回率
经典相关性模型
向量空间模型
语言模型
经典相关性模型的缺点
经典排序学习方法
经典机器学习模型
线性函数
多项式回归
逻辑回归
梯度提升决策树
特征工程
时效性排序
时效性排序模型构建
时效性与相关性的融合
使用进行搜索排序示例
小结
第二部分深度信息检索模型与算法
第章深度召回模型
深度召回模型的基本框架
词的编码与向量化表示
独热编码
词哈希
词嵌入
短句、句子的表示
池化
卷积神经网络
序列建模
案例:基于的深度召回框架
微调数据准备和采样策略
模型微调和训练过程
在线召回
其他基于改进的召回模型
混合召回
混合召回的工作原理
混合召回的优势
小结
第章近邻检索算法
暴力穷举方法
树
树构建过程
树搜索过程
局部敏感哈希
矢量量化
层级图结构
使用进行近邻检索示例
小结
第章深度相关性模型
基于交互矩阵的相关性模型
交互矩阵的核函数
基于交互矩阵的神经网络模型
基于的相关性模型
用搜索语料做持续预训练
用模型做微调
模型效果分析
相关性模型案例实践
模型微调示例
在线推理过程
小结
第章深度排序模型
精排模型演进
多目标
多样性
数据消偏
位置偏差
小结
第三部分搜索前沿
第章大语言模型基础
大语言模型技术背景
架构
大语言模型训练过程
预训练:大语言模型训练的关键步骤
监督微调:从通用到特定的任务
奖励建模
提示词工程
提示词设计原则
少样本提示词
思维链
模型微调
模型微调的概念
模型微调的一般过程
小结
第章搜索实践
基于架构的搜索
索引构建
查询理解
检索
生成
搜索的实现
搜索任务规划
搜索任务执行
答案满足判定
二次规划
答案生成
知识蒸馏与模型微调
知识蒸馏的数据准备
模型微调
评估
评估标准
评估方法
小结
第章生成式信息检索
可微搜索索引
标识符学习方法
多模态生成式信息检索
图像的向量表征
基于模型的向量检索
图像的量化表征
图像的量化检索
小结
参考文献
显示全部信息
商品详情
编辑推荐
内容新年兴起后近期新的搜索引擎进展,例如实时搜索、语义搜索、个性化搜索等。 代码示例丰富:大量的代码示例,可帮助读者深入了解搜索引擎的实现细节。 真实的行业应用:网页搜索引擎、流媒体平台搜索引擎和大语言模型对搜索引擎的影响。
内容简介
本书系统介绍了搜索引擎的技术发展历程和前沿趋势,内容分为三大部分:搜索引擎基础、深度信息检索模型与算法以及搜索前沿。第一部分涵盖了搜索引擎的核心架构与关键技术,包括基本系统架构、查询理解、索引技术、关键词检索、排序学习等内容,为读者提供了现代搜索系统的技术框架和实践参考。第二部分详细探讨了深度学习技术在信息检索中的应用,包括深度召回模型、近邻检索算法、深度相关性模型、深度排序模型等,并通过案例展示了如何将这些技术应用于实际问题。第三部分则聚焦于搜索前沿技术,介绍了大语言模型基础、搜索实践、生成式信息检索,探讨了搜索时代的技术特点及未来发展方向。本书附有丰富的实践案例和代码示例,可以帮助读者将理论知识付诸实践,既适合想了解搜索相关内容的初学者学习,也适合搜索领域的相关从业者参考。
作者简介
邹敏,中国科学院数学研究所硕士,现任昆仑万维集团大模型团队算法总监。曾于微软必应()从事搜索引擎算法的研发工作,后任美国公司搜索团队负责人,作为资深研发经理主导了与搜索系统的建设。长期专注于信息检索、大模型与智能体技术领域,拥有项发明专利。
目 录
第一部分搜索引擎基础
第章搜索引擎的基本系统架构
网页抓取
网页抓取过程
网页抓取系统的组成部分
爬虫系统的衡量指标
内容理解
页面分析
网页分类
索引构建
索引的数据源
索引结构与压缩算法
索引的分片、复本与分级策略
查询理解第一部分搜索引擎基础
第章搜索引擎的基本系统架构
网页抓取
网页抓取过程
网页抓取系统的组成部分
爬虫系统的衡量指标
内容理解
页面分析
网页分类
索引构建
索引的数据源
索引结构与压缩算法
索引的分片、复本与分级策略
查询理解
查询词预处理
查询改写
查询扩展
时效性分析
查询分类
召回
关键词召回
语义召回
排序
特征工程
排序模型
多级排序框架
其他
小结
第章查询理解
查询语法与查询解析
基本查询语法
查询解析
查询词预处理
拼写纠错
词权重计算
词权重模型
词权重模型训练过程
词权重应用
其他词权重计算方法
查询分类
垃圾查询识别
时效性查询识别
查询扩展
基于词典的查询扩展
基于相关文档的查询扩展
基于向量化表示的查询扩展
基于大语言模型的查询扩展
查询改写
基于机器翻译模型的查询改写
基于大语言模型的查询改写
小结
第章倒排索引技术
倒排索引的基本结构
词典
倒排列表
索引压缩算法
索引块压缩算法
字节压缩算法
索引结构示例
索引合并
倒排列表的基本合并操作
基于二分查找的倒排索引合并
基于跳表的倒排索引合并
倒排索引的构建
关键词分词
索引构建
倒排索引的分布式服务
案例一:使用进行搜索
案例二:基于的关键词索引
小结
第章关键词检索
预备知识与准备工作
文本相关性
命中频次特征
命中紧密度特征
语言模型特征
意图匹配特征
权威性计算
文档的时效性计算
点击反馈
特征融合
线性组合
相关性优先组合
机器学习组合
混合组合
小结
第章排序学习
排序效果的评价指标
准确率与召回率
经典相关性模型
向量空间模型
语言模型
经典相关性模型的缺点
经典排序学习方法
经典机器学习模型
线性函数
多项式回归
逻辑回归
梯度提升决策树
特征工程
时效性排序
时效性排序模型构建
时效性与相关性的融合
使用进行搜索排序示例
小结
第二部分深度信息检索模型与算法
第章深度召回模型
深度召回模型的基本框架
词的编码与向量化表示
独热编码
词哈希
词嵌入
短句、句子的表示
池化
卷积神经网络
序列建模
案例:基于的深度召回框架
微调数据准备和采样策略
模型微调和训练过程
在线召回
其他基于改进的召回模型
混合召回
混合召回的工作原理
混合召回的优势
小结
第章近邻检索算法
暴力穷举方法
树
树构建过程
树搜索过程
局部敏感哈希
矢量量化
层级图结构
使用进行近邻检索示例
小结
第章深度相关性模型
基于交互矩阵的相关性模型
交互矩阵的核函数
基于交互矩阵的神经网络模型
基于的相关性模型
用搜索语料做持续预训练
用模型做微调
模型效果分析
相关性模型案例实践
模型微调示例
在线推理过程
小结
第章深度排序模型
精排模型演进
多目标
多样性
数据消偏
位置偏差
小结
第三部分搜索前沿
第章大语言模型基础
大语言模型技术背景
架构
大语言模型训练过程
预训练:大语言模型训练的关键步骤
监督微调:从通用到特定的任务
奖励建模
提示词工程
提示词设计原则
少样本提示词
思维链
模型微调
模型微调的概念
模型微调的一般过程
小结
第章搜索实践
基于架构的搜索
索引构建
查询理解
检索
生成
搜索的实现
搜索任务规划
搜索任务执行
答案满足判定
二次规划
答案生成
知识蒸馏与模型微调
知识蒸馏的数据准备
模型微调
评估
评估标准
评估方法
小结
第章生成式信息检索
可微搜索索引
标识符学习方法
多模态生成式信息检索
图像的向量表征
基于模型的向量检索
图像的量化表征
图像的量化检索
小结
参考文献
显示全部信息
商品详情