
开本:16开 |
纸张:胶版纸 |
包装:平装-胶订 |
是否套装:否 |
国际标准书号ISBN:9787111776871 |
所属分类:图书>计算机/网络>计算机理论 |
编辑推荐
《多智能体强化学习:基础与现代方法》是多智能体强化学习领域的权威之作,作者巧妙地将强化学习与博弈论相结合,为该领域的研究和应用奠定了坚实基础。本书不仅适合初学者入门,更为成熟研究人员提供了深度洞察和真知灼见,是多智能体强化学习不可或缺的参考书。商品详情内容简介
多智能体强化学习( )是机器学习中的一个领域,研究多个智能体如何在共享环境中学习很优的交互方式。这一领域在现代生活中有着广泛的应用,包括自动驾驶、多机器人工厂、自动化交易和能源网络管理等。 本书是一部系统阐述多智能体强化学习理论与技术的权威著作,清晰而严谨地介绍了的模型、解决方案概念、算法思想、技术挑战以及现代方法。书中首先介绍了该领域的基础知识,包括强化学习理论和算法的基础、交互式博弈模型、博弈中的不同解决方案概念以及支撑研究的算法思想。随后,书中详细介绍了利用深度学习技术的现代算法,涵盖集中训练与分散执行、价值分解、参数共享和自博弈等思想。本书还附带了一个用编写的代码库,其中包括自包含且易于阅读的算法实现。 本书技术内容以易于理解的语言解释,并通过大量示例进行说明,既为初学者阐明了的概念,也为专业的读者提供了高层次的见解。
目 录
译者序
前言
符号总览
第章引言
多智能体系统
多智能体强化学习
应用示例
多机器人仓库管理
棋盘游戏和电子游戏中的
竞争性对战
自动驾驶
电子市场中的自动化
交易
多智能体强化学习的挑战 译者序
前言
符号总览
第章引言
多智能体系统
多智能体强化学习
应用示例
多机器人仓库管理
棋盘游戏和电子游戏中的
竞争性对战
自动驾驶
电子市场中的自动化
交易
多智能体强化学习的挑战
多智能体强化学习的议题
本书内容和结构第一部分多智能体强化学习的基础
第章强化学习
一般定义
马尔可夫决策过程
期望扣回报和很优策略
价值函数与贝尔曼方程
动态规划
时序差分学习
学习曲线评估
′和,的等价性
总结
第章博弈:多智能体交互模型
标准式博弈
重复标准式博弈
随机博弈
部分可观测随机博弈
建模通信
博弈中的知识假设
词典:强化学习与博弈论
总结
第章博弈的解概念
联合策略与期望回报
很好响应
极小极大算法
纳什均衡
纳什均衡
(粗)相关均衡
均衡解的概念局限性
帕雷托很优
社会福利和公平
无悔
均衡计算的复杂性
复杂性类
计算纳什均衡是完全问题
总结
第章博弈中的多智能体强化
学习:第一步与挑战
一般学习过程
收敛类型
单智能体强化学习的简化
中心学习
独立学习
示例:基于等级的搜寻
多智能体强化学习的挑战
非平稳性
均衡选择
多智能体信用分配
扩展到多个智能体
智能体使用哪些算法
自博弈
混合博弈
总结
第章多智能体强化学习:基础算法
博弈的动态规划:价值迭代
博弈中的时序差分:联合动作学习
极小极大学习
纳什学习
相关学习
联合动作学习的局限性
智能体建模
虚拟博弈
智能体建模的联合动作学习
贝叶斯学习与信息
基于策略的学习
期望奖励中的梯度上升
无穷小梯度上升的学习动态
赢或快速学习
用策略爬山算法实现赢或快速学习
广义无穷小梯度上升
无悔学习
无条件与有条件的遗憾匹配
遗憾匹配的收敛性
总结
第二部分多智能体深度强化学习:算法与实践
第章深度学习
强化学习的函数逼近
线性函数逼近
前馈神经网络
神经元
激活函数
由层和单元构成网络
基于梯度的优化
损失函数
梯度下降
反向传播
卷积神经网络与递归神经网络
从图像中学习——利用数据中的空间关系
利用记忆从序列中学习
总结
第章深度强化学习
深度价值函数逼近
深度学习——可能出现什么问题
目标值变动问题
打破相关性
汇总:深度网络
超越深度网络
策略梯度算法
学习策略的优势
策略梯度定理
:蒙特卡罗策略梯度
演员评论家算法
:优势演员评论家
近端策略优化
策略梯度算法在实践中的应用
策略的并行训练
实践中的观测、状态和历史记录
总结
第章多智能体深度强化学习
训练和执行模式
集中式训练和执行
分散式训练和执行
集中式训练与分散式执行
多智能体深度强化学习的符号表示
独立学习
基于独立价值的学习
独立策略梯度方法
示例:大型任务中的深度独立学习
多智能体策略梯度算法
多智能体策略梯度定理
集中式评论家
集中式动作价值评论家
显示全部信息
《多智能体强化学习:基础与现代方法》是多智能体强化学习领域的权威之作,作者巧妙地将强化学习与博弈论相结合,为该领域的研究和应用奠定了坚实基础。本书不仅适合初学者入门,更为成熟研究人员提供了深度洞察和真知灼见,是多智能体强化学习不可或缺的参考书。商品详情内容简介
多智能体强化学习( )是机器学习中的一个领域,研究多个智能体如何在共享环境中学习很优的交互方式。这一领域在现代生活中有着广泛的应用,包括自动驾驶、多机器人工厂、自动化交易和能源网络管理等。 本书是一部系统阐述多智能体强化学习理论与技术的权威著作,清晰而严谨地介绍了的模型、解决方案概念、算法思想、技术挑战以及现代方法。书中首先介绍了该领域的基础知识,包括强化学习理论和算法的基础、交互式博弈模型、博弈中的不同解决方案概念以及支撑研究的算法思想。随后,书中详细介绍了利用深度学习技术的现代算法,涵盖集中训练与分散执行、价值分解、参数共享和自博弈等思想。本书还附带了一个用编写的代码库,其中包括自包含且易于阅读的算法实现。 本书技术内容以易于理解的语言解释,并通过大量示例进行说明,既为初学者阐明了的概念,也为专业的读者提供了高层次的见解。
目 录
译者序
前言
符号总览
第章引言
多智能体系统
多智能体强化学习
应用示例
多机器人仓库管理
棋盘游戏和电子游戏中的
竞争性对战
自动驾驶
电子市场中的自动化
交易
多智能体强化学习的挑战 译者序
前言
符号总览
第章引言
多智能体系统
多智能体强化学习
应用示例
多机器人仓库管理
棋盘游戏和电子游戏中的
竞争性对战
自动驾驶
电子市场中的自动化
交易
多智能体强化学习的挑战
多智能体强化学习的议题
本书内容和结构第一部分多智能体强化学习的基础
第章强化学习
一般定义
马尔可夫决策过程
期望扣回报和很优策略
价值函数与贝尔曼方程
动态规划
时序差分学习
学习曲线评估
′和,的等价性
总结
第章博弈:多智能体交互模型
标准式博弈
重复标准式博弈
随机博弈
部分可观测随机博弈
建模通信
博弈中的知识假设
词典:强化学习与博弈论
总结
第章博弈的解概念
联合策略与期望回报
很好响应
极小极大算法
纳什均衡
纳什均衡
(粗)相关均衡
均衡解的概念局限性
帕雷托很优
社会福利和公平
无悔
均衡计算的复杂性
复杂性类
计算纳什均衡是完全问题
总结
第章博弈中的多智能体强化
学习:第一步与挑战
一般学习过程
收敛类型
单智能体强化学习的简化
中心学习
独立学习
示例:基于等级的搜寻
多智能体强化学习的挑战
非平稳性
均衡选择
多智能体信用分配
扩展到多个智能体
智能体使用哪些算法
自博弈
混合博弈
总结
第章多智能体强化学习:基础算法
博弈的动态规划:价值迭代
博弈中的时序差分:联合动作学习
极小极大学习
纳什学习
相关学习
联合动作学习的局限性
智能体建模
虚拟博弈
智能体建模的联合动作学习
贝叶斯学习与信息
基于策略的学习
期望奖励中的梯度上升
无穷小梯度上升的学习动态
赢或快速学习
用策略爬山算法实现赢或快速学习
广义无穷小梯度上升
无悔学习
无条件与有条件的遗憾匹配
遗憾匹配的收敛性
总结
第二部分多智能体深度强化学习:算法与实践
第章深度学习
强化学习的函数逼近
线性函数逼近
前馈神经网络
神经元
激活函数
由层和单元构成网络
基于梯度的优化
损失函数
梯度下降
反向传播
卷积神经网络与递归神经网络
从图像中学习——利用数据中的空间关系
利用记忆从序列中学习
总结
第章深度强化学习
深度价值函数逼近
深度学习——可能出现什么问题
目标值变动问题
打破相关性
汇总:深度网络
超越深度网络
策略梯度算法
学习策略的优势
策略梯度定理
:蒙特卡罗策略梯度
演员评论家算法
:优势演员评论家
近端策略优化
策略梯度算法在实践中的应用
策略的并行训练
实践中的观测、状态和历史记录
总结
第章多智能体深度强化学习
训练和执行模式
集中式训练和执行
分散式训练和执行
集中式训练与分散式执行
多智能体深度强化学习的符号表示
独立学习
基于独立价值的学习
独立策略梯度方法
示例:大型任务中的深度独立学习
多智能体策略梯度算法
多智能体策略梯度定理
集中式评论家
集中式动作价值评论家
显示全部信息