
开本:16开 |
纸张:胶版纸 |
包装:平装-胶订 |
是否套装:否 |
国际标准书号ISBN:9787121500725 |
所属分类:图书>计算机/网络>硬件外部设备维修 |
商品详情内容简介
本书系统地讲解了大模型技术、训练算法(包括强化学习、、、与蒸馏等)、效果优化及其实践。全书以大语言模型为核心,内容广泛且深入,绝大部分内容适用于视觉语言模型和多模态大语言模型。
本书适合算法与工程领域的从业者,相关专业的学生,希望深入了解大模型技术、拥抱与大模型浪潮的读者阅读。
目 录
第章 大模型原理与技术概要
图解大模型结构
大语言模型()结构全景图
输入层:分词、映射与向量生成
输出层:、概率分布与解码
多模态语言模型(、)
大模型训练全景图
(性能的四大扩展规律)
第章 (监督微调)
多种微调技术图解
全参数微调、部分参数微调
(低秩适配微调)――四两拨千斤
衍生:、、等
基于提示的微调:等第章 大模型原理与技术概要
图解大模型结构
大语言模型()结构全景图
输入层:分词、映射与向量生成
输出层:、概率分布与解码
多模态语言模型(、)
大模型训练全景图
(性能的四大扩展规律)
第章 (监督微调)
多种微调技术图解
全参数微调、部分参数微调
(低秩适配微调)――四两拨千斤
衍生:、、等
基于提示的微调:等
微调技术对比
如何选择微调技术
原理深入解析
数据与格式化
与概率计算
的
的图解
对数概率()与
指令收集和处理
收集指令的渠道和方法
清洗指令的四要素
数据预处理及常用工具
实践指南
如何缓解引入的幻觉?
级 的换算
与学习率的
的七个技巧
第章 (直接偏好优化)
的核心思想
的提出背景与意义
隐式的奖励模型
和优化目标
偏好数据集的构建
构建流程总览
的收集
问答数据对的清洗
封装和预处理
图解的实现与训练
模型的初始化
训练全景图
核心代码的提炼和解读
实践经验
β参数如何调节
对模型能力的多维度影响
进阶
和()的对比
理解的梯度
第章 免训练的效果优化技术
提示工程
、、
设计的原则
(思维链)
原理图解
、、等衍生方法
的应用技巧
在多模态领域的应用
生成控制和解码策略
解码的原理与分类
贪婪搜索
(波束搜索):图解、衍生
、等采样方法图解
其他解码策略
多种生成控制参数
(检索增强生成)
技术全景图
相关框架
功能与工具调用( )
功能调用全景图
功能调用的分类
第章 强化学习基础
强化学习核心
强化学习:定义与区分
强化学习的基础架构、核心概念
马尔可夫决策过程()
探索与利用、ε贪婪策略
和
在线离线强化学习( )
强化学习分类图
价值函数、回报预估
奖励、回报、扣因子(、、γ)
反向计算回报
四种价值函数:π、π、、
奖励、回报、价值的区别
贝尔曼方程――强化学习的基石
和的转换关系、转换图
蒙特卡洛方法()
时序差分()
时序差分方法
和
λ、多步
蒙特卡洛、、、穷举搜索的区别
基于价值的算法
算法
的、训练过程
、 等衍生算法
策略梯度算法
策略梯度( )
策略梯度定理
和
多智能体强化学习()
的原理与架构
的建模
的典型算法
模仿学习()
模仿学习的定义、分类
行为克隆()
逆向强化学习()
生成对抗模仿学习()
强化学习高级拓展
基于环境模型()的方法
分层强化学习()
分布价值强化学习( )
第章 策略优化算法
(演员评委)架构
从策略梯度到
架构图解
优势函数与
优势函数()
、、算法
(广义优势估计)算法
γ和λ的调节作用
及其相关算法
算法的演进
(置信域策略优化)
重要性采样( )
的的扩展
与的区别
图解策略模型的训练
深入解析的本质
算法
的原理
与的区别
确定性策略梯度()
确定性策略随机性策略
、、算法
第章 与
(基于人类反馈的强化学习)概要
的背景、发展
语言模型的强化学习建模
的训练样本、总流程
阶段一:图解奖励模型的设计与训练
奖励模型( )的结构
奖励模型的输入与奖励分数
奖励模型的解析
奖励模型训练全景图
奖励模型的
阶段二:多模型联动的训练
四种模型的角色图解
各模型的结构、初始化、实践技巧
各模型的输入、输出
基于散度的策略约束
基于的核心实现
全景图:基于的训练
实践技巧
奖励欺骗( )
拒绝采样( )微调
强化学习与的训练框架
的超参数
的关键监控指标
基于反馈的强化学习
的原理图解
:基于宪法的强化学习
:基于规则的奖励
第章 逻辑推理能力优化
逻辑推理()相关技术概览
推理时计算与搜索
基于的蒸馏
过程奖励模型与结果奖励模型()
数据合成
推理路径搜索与优化
(蒙特卡洛树搜索)
搜索
采样与蒸馏
其他搜索方法
强化学习训练
强化学习的多种应用
自博弈()与自我进化
强化学习的多维创新
第章 综合实践与性能优化
实践全景图
训练与部署
数据与环境准备
超参数如何设置
训练
对齐训练:训练、训练
推理与部署
的训练与本地部署
的蒸馏与训练
的本地部署与使用
效果评估
评估方法分类
与的评测框架
大模型性能优化技术图谱
显示全部信息
本书系统地讲解了大模型技术、训练算法(包括强化学习、、、与蒸馏等)、效果优化及其实践。全书以大语言模型为核心,内容广泛且深入,绝大部分内容适用于视觉语言模型和多模态大语言模型。
本书适合算法与工程领域的从业者,相关专业的学生,希望深入了解大模型技术、拥抱与大模型浪潮的读者阅读。
目 录
第章 大模型原理与技术概要
图解大模型结构
大语言模型()结构全景图
输入层:分词、映射与向量生成
输出层:、概率分布与解码
多模态语言模型(、)
大模型训练全景图
(性能的四大扩展规律)
第章 (监督微调)
多种微调技术图解
全参数微调、部分参数微调
(低秩适配微调)――四两拨千斤
衍生:、、等
基于提示的微调:等第章 大模型原理与技术概要
图解大模型结构
大语言模型()结构全景图
输入层:分词、映射与向量生成
输出层:、概率分布与解码
多模态语言模型(、)
大模型训练全景图
(性能的四大扩展规律)
第章 (监督微调)
多种微调技术图解
全参数微调、部分参数微调
(低秩适配微调)――四两拨千斤
衍生:、、等
基于提示的微调:等
微调技术对比
如何选择微调技术
原理深入解析
数据与格式化
与概率计算
的
的图解
对数概率()与
指令收集和处理
收集指令的渠道和方法
清洗指令的四要素
数据预处理及常用工具
实践指南
如何缓解引入的幻觉?
级 的换算
与学习率的
的七个技巧
第章 (直接偏好优化)
的核心思想
的提出背景与意义
隐式的奖励模型
和优化目标
偏好数据集的构建
构建流程总览
的收集
问答数据对的清洗
封装和预处理
图解的实现与训练
模型的初始化
训练全景图
核心代码的提炼和解读
实践经验
β参数如何调节
对模型能力的多维度影响
进阶
和()的对比
理解的梯度
第章 免训练的效果优化技术
提示工程
、、
设计的原则
(思维链)
原理图解
、、等衍生方法
的应用技巧
在多模态领域的应用
生成控制和解码策略
解码的原理与分类
贪婪搜索
(波束搜索):图解、衍生
、等采样方法图解
其他解码策略
多种生成控制参数
(检索增强生成)
技术全景图
相关框架
功能与工具调用( )
功能调用全景图
功能调用的分类
第章 强化学习基础
强化学习核心
强化学习:定义与区分
强化学习的基础架构、核心概念
马尔可夫决策过程()
探索与利用、ε贪婪策略
和
在线离线强化学习( )
强化学习分类图
价值函数、回报预估
奖励、回报、扣因子(、、γ)
反向计算回报
四种价值函数:π、π、、
奖励、回报、价值的区别
贝尔曼方程――强化学习的基石
和的转换关系、转换图
蒙特卡洛方法()
时序差分()
时序差分方法
和
λ、多步
蒙特卡洛、、、穷举搜索的区别
基于价值的算法
算法
的、训练过程
、 等衍生算法
策略梯度算法
策略梯度( )
策略梯度定理
和
多智能体强化学习()
的原理与架构
的建模
的典型算法
模仿学习()
模仿学习的定义、分类
行为克隆()
逆向强化学习()
生成对抗模仿学习()
强化学习高级拓展
基于环境模型()的方法
分层强化学习()
分布价值强化学习( )
第章 策略优化算法
(演员评委)架构
从策略梯度到
架构图解
优势函数与
优势函数()
、、算法
(广义优势估计)算法
γ和λ的调节作用
及其相关算法
算法的演进
(置信域策略优化)
重要性采样( )
的的扩展
与的区别
图解策略模型的训练
深入解析的本质
算法
的原理
与的区别
确定性策略梯度()
确定性策略随机性策略
、、算法
第章 与
(基于人类反馈的强化学习)概要
的背景、发展
语言模型的强化学习建模
的训练样本、总流程
阶段一:图解奖励模型的设计与训练
奖励模型( )的结构
奖励模型的输入与奖励分数
奖励模型的解析
奖励模型训练全景图
奖励模型的
阶段二:多模型联动的训练
四种模型的角色图解
各模型的结构、初始化、实践技巧
各模型的输入、输出
基于散度的策略约束
基于的核心实现
全景图:基于的训练
实践技巧
奖励欺骗( )
拒绝采样( )微调
强化学习与的训练框架
的超参数
的关键监控指标
基于反馈的强化学习
的原理图解
:基于宪法的强化学习
:基于规则的奖励
第章 逻辑推理能力优化
逻辑推理()相关技术概览
推理时计算与搜索
基于的蒸馏
过程奖励模型与结果奖励模型()
数据合成
推理路径搜索与优化
(蒙特卡洛树搜索)
搜索
采样与蒸馏
其他搜索方法
强化学习训练
强化学习的多种应用
自博弈()与自我进化
强化学习的多维创新
第章 综合实践与性能优化
实践全景图
训练与部署
数据与环境准备
超参数如何设置
训练
对齐训练:训练、训练
推理与部署
的训练与本地部署
的蒸馏与训练
的本地部署与使用
效果评估
评估方法分类
与的评测框架
大模型性能优化技术图谱
显示全部信息