DeepSeek硬核技术解读 9787111792284

配送至
$ $ USD

开本:16开
纸张:胶版纸
包装:平装-胶订
是否套装:否
国际标准书号ISBN:9787111792284
所属分类:图书>计算机/网络>企业软件开发与实施
确保正版支持发票 七天无理由让您购物无忧重磅推荐
目 录
前 言
部分 学习前置知识
章 认识
的模型介绍
的重要突破
为开源做贡献
性能大幅提升
成本显著降低
算法创新
系列模型与其他大模型的
介绍
系列模型
国外大模型
大模型第章 经典架构
架构的特点
的基本原理
分词器
词嵌入层
位置编码模块
自注意力模块
多头注意力模块
前馈神经网络模块
残差连接和层归一化模块
架构
架构下的计算
复杂度
矩阵乘法的计算复杂度
架构下的计算量
推导
模式下的推理与训练
矩阵详解
具体训练和推理
位置编码与相对位置编码
位置编码
相对位置编码
位置编码与相对位置
编码的对比
第章 强化学习基础
基础概念
大语言模型中的



大语言模型中的强化学习训练
数据格式
第章 大语言模型量化
大语言模型精度基础知识
量化基础知识
线性量化
非线性量化
对称量化
非对称量化
量化感知训练
训练后量化
反量化
分组量化
分组量化的优点
分组量化的分组方式
影响量化后模型精度与速度的
因素
常见的量化算法



第章 大语言模型分布式训练
基础知识
通信原语







数据并行
张量并行
张量并行——行并行
张量并行——列并行
行并行与列并行的差别
流水线并行
序列并行
“专家”并行第二部分 核心技术
第章 的模型架构
架构
的基本原理
架构下计算量下降的
分析
架构



分词器设计


分词器对模型性能的
影响
模型的原理
什么是跨模态对齐
模型对高清
图像的处理
第章 架构负载均衡技术
详解
负载均衡的意义与挑战
卡间负载均衡
节点间负载均衡
架构的“专家”负载
均衡
的负载均衡
全局无损失负载均衡
序列间负载均衡
节点与卡间的通信负载
均衡
的负载均衡
设备级负载均衡
“专家”级负载均衡
通信负载均衡
第章 在基础
设施层的优化
混合精度训练
为什么要进行混合精度
训练
传统的混合精度训练
框架
的混合精度
训练

分块量化计算
的数值
溢出
的分块量化
计算原理
第章 数据处理与质量提升
预训练数据工程
预训练数据的一般处理
流程
数据去重的常见算法
数据质量保障
预训练数据的格式
预训练数据的
处理
数据的构建与处理
数据的一般格式和
内容
基于教师模型的数据
蒸馏
构建数据的一般
原则
数据进化
的基本作用与
流程
数据的格式与
构建
的数据处理
初始数据准备
数据预处理与召回
迭代优化
基准污染过滤
关键结果与收敛判断
数据构建
章 的训练逻辑
的训练逻辑


超参数设计
数据构建
强化学习
开源推理模型的训练
逻辑
推理模型的主要特点
的构造
逻辑
的奖励和
奖励模型
中的奖励
为什么
跳过
为什么需要
进行少量数据的
监督微调
的训练逻辑
初始阶段:视觉语言
对齐
预训练阶段:多模态联合
学习
微调阶段:指令跟踪和
对话能力增强
章 的推理及优化
推理阶段的报告
原文
推理阶段的综合解读
阶段的推理设计
及优化
阶段的推理设计
及优化
商品详情

书名硬核技术解读

作者刘丹尹俊希杨院伶
出版社:机械工业出版社
出版日期

字数:
页码:
版次:
装帧:平装
开本开
商品重量: