
编辑推荐
本书全面系统地介绍了机器学习的基本概念、预备知识、主要思想、研究进展、基础技术、应用技巧;并围绕当前机器学习领域的热点问题展开讨论。全书共11章;主要内容包括:决策树、神经网络、支持向量机、遗传算法、回归、聚类分析等内容。
目录
目录
第1章绪论
1.1从两个问题谈起
1.2模型评估与模型参数选择
1.2.1验证
1.2.2正则化
1.3机器学习算法分类
1.3.1监督学习
1.3.2非监督学习
习题
第2章回归
2.1线性回归
2.2Logistic回归
习题
第3章LDA主题模型
3.1LDA简介
3.2数学基础
3.2.1多项分布
3.2.2Dirichlet分布
3.2.3共轭先验分布
3.3LDA主题模型
3.3.1基础模型
3.3.2PLSA模型
3.3.3LDA模型
3.4LDA模型应用实例
3.4.1配置安装
3.4.2文本预处理
3.4.3使用Gensim
习题
第4章决策树
4.1决策树简介
4.1.1一个小例子
4.1.2几个重要的术语及决策树构造思路
4.2离散型决策树的构造
4.3连续性数值的处理
4.4决策树剪枝
习题
第5章支持向量机
5.1分离超平面与最大间隔
5.2线性支持向量机
5.2.1硬间隔
5.2.2软间隔
5.3非线性支持向量机
5.3.1核方法
5.3.2常用的核函数
5.4操作实例: 应用MATLAB多分类SVM、二分类SVM、决策树
算法进行分类
5.4.1数据集选择
5.4.2数据预处理
5.4.3模型表现
5.4.4经验总结
习题
第6章提升方法
6.1随机森林
6.1.1随机森林介绍
6.1.2Bootstrap Aggregation
6.1.3随机森林训练过程
6.1.4随机森林的优点与缺点
6.2Adaboost
6.2.1引入
6.2.2Adaboost实现过程
6.2.3Adaboost总结
6.3随机森林算法应用举例
6.3.1MATLAB中随机森林算法
6.3.2操作实例1: 基于集成方法的IRIS数据集分类
6.3.3操作实例2: 基于ensemble方法的人脸识别
习题
第7章神经网络基础
7.1基础概念
7.2感知机
7.2.1单层感知机
7.2.2多层感知机
7.3BP神经网络
7.3.1梯度下降
7.3.2后向传播
7.4径向基函数网络
7.4.1精确插值与径向基函数
7.4.2径向基函数网络
7.5Hopfield网络
7.5.1Hopfield网络的结构
7.5.2Hopfield网络的训练
7.5.3Hopfield网络状态转移
7.6Boltzmann机
7.7自组织映射网络
7.7.1网络结构
7.7.2训练算法
7.8实例: 使用MATLAB进行Batch Normalization
7.8.1浅识Batch Normalization
7.8.2MATLAB nntool使用简介
习题
第8章深度神经网络
8.1什么是深度神经网络
8.2卷积神经网络
8.2.1卷积神经网络的基本思想
8.2.2卷积操作
8.2.3池化层
8.2.4卷积神经网络
8.3循环神经网络
8.3.1循环单元
8.3.2通过时间后向传播
8.3.3带有门限的循环单元
8.4MATLAB深度学习工具箱简介
8.5利用Theano搭建和训练神经网络
8.5.1Theano简介
8.5.2Theano的基本使用
8.5.3搭建训练神经网络的项目
习题
第9章聚类算法
9.1简介
9.1.1聚类任务
9.1.2基本表示
9.2K Means算法
9.2.1算法简介
9.2.2算法流程
9.2.3K Means的一些改进
9.2.4选择合适的K
9.2.5X Means
9.3层次聚类
9.4聚类算法拓展
9.4.1聚类在信号处理领域的应用
9.4.2以语义聚类的形式展示网络图像搜索结果
习题
第10章寻优算法之遗传算法
10.1简介
10.1.1算法起源
10.1.2基本过程
10.1.3基本表示
10.1.4输入输出
10.1.5优缺点及应用
10.2算法原型
10.2.1初始化
10.2.2评估
10.2.3选择优秀个体
10.2.4交叉
10.2.5变异
10.2.6迭代
10.3算法拓展
10.3.1精英主义思想
10.3.2灾变
习题
第11章项目实践: 基于机器学习的监控视频行人检测与追踪系统
11.1引言
11.2相关算法与指标
11.2.1方向梯度直方图
11.2.2支持向量机
11.2.3结构相似性
11.2.4Haar Like特征
11.2.5级联分类器
11.2.6特征脸
11.3系统设计与实现
11.3.1视频处理模块
11.3.2图像识别模块
11.3.3目标追踪模块
11.4系统测试
11.4.1测试环境
11.4.2系统单元测试与集成测试
11.4.3性能测试
11.4.4系统识别准确率测试
11.5结语
参考文献
序言
前言
本书全面系统地介绍了机器学习的基本概念、预备知识、主要思想、研究进展、基础技术、应用技巧;并围绕当前机器学习领域的热点问题展开讨论。章节安排由浅入深;涵盖回归问题、分类问题、监督学习、无监督学习。具体内容包括决策树、神经网络、支持向量机、遗传算法、集成学习、聚类分析等。各章对原理的叙述力求概念清晰、表达准确;突出理论联系实际;富有启发性;易于理解。辅以代码实践指导;引领读者快速迈进机器学习领域;通过动手实践进一步加深对机器学习算法的理解。
本书注重对数学分析方法和理论的探讨;而且也非常关注神经网络在模式识别、信号处理以及控制系统等实际工程问题中的应用。它完美结合了基础理论与应用实践;可作为高等院校计算机、软件工程、智能科学与技术等专业研究生和高年级本科生的教材;同时对于从事人工智能、数据挖掘、模式识别的相关技术人员也具有较高参考价值。
大数据时代是机器学习最美好的时代。希望本书不仅可以帮助读者深入理解机器学习的概念;在理论分析与实际应用技术的结合中;掌握主流解决方案;更能以一种全新的视角理解在实际软件工程中机器学习的总体思想;在人工智能的大时代中夺得先机!
本书的作者为吕云翔、马连韬、刘卓然、张凡、张程博;另外;曾洪立、吕彼佳、姜彦华进行了素材整理及配套资源制作等。
由于机器学习是一门新兴学科;机器学习的教学方法本身还在探索之中;加之作者的水平和能力有限;书中难免存在疏漏之处;恳请各位同仁和广大读者给予批评指正。也希望各位能将实践过程中的经验和心得与我们交流。
作者
2018年3月
于北京航空航天大学
文摘
第3章LDA主题模型
3.1LDA简介
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型;也称为一个三层贝叶斯概率模型;包含词、主题和文档三层结构;由Blei;David M.Ng;Andrew Y.Jordan在2003年提出。该模型可以将文档集中每篇文档的主题以概率分布的形式给出;从而通过分析一些文档抽取出它们的主题分布出来后;便可以根据主题分布进行主题聚类或文本分类。同时;它采用词袋的方法;这种方法将每一篇文档视为一个词频向量;从而将文本信息转化为易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序;这简化了问题的复杂性;同时也为模型的改进提供了契机。
在LDA主题模型中;一篇文档包含多个主题;而文档中的每一个词都由其中的一个主题生成;而人类生成文档的过程则是: 文档中的每个词都是通过“以一定概率选择了某个主题;并从这个主题中以一定概率选择了某个词语”。
LDA主题模型的三位作者在原始论文中给了一个简单的例子。首先给定了4个主题: Arts、Budgets、Children和Education;然后通过学习训练;获取每个主题对应的词语;如图3.1所示。
图3.1主题及其对应词语
然后以一定概率选取上述4个主题中的某个主题;再以一定概率选取那个主题下的某个单词;不断地重复这两步;最终生成如图3.2所示的一篇文章。
当我们看到一篇文档后;往往会推测这篇文档想要表达的是什么主题;而且我们可能也会认为作者是先确定这篇文章的几个主题;然后围绕这几个主题进行遣词造句;表达成文的。而LDA的任务就是: 根据给定的一篇文档;推测其主题分布。一般来说;假定认为人们都是根据上述文档生成过程写成了各种各样的文章;现在某一部分人想让计算机用LDA干一件事: 计算机推测分析网络上的各篇文章都写了哪些主题;且计算各篇文章中各个主题出现的概率大小(即主题分布)。
本书全面系统地介绍了机器学习的基本概念、预备知识、主要思想、研究进展、基础技术、应用技巧;并围绕当前机器学习领域的热点问题展开讨论。全书共11章;主要内容包括:决策树、神经网络、支持向量机、遗传算法、回归、聚类分析等内容。
目录
目录
第1章绪论
1.1从两个问题谈起
1.2模型评估与模型参数选择
1.2.1验证
1.2.2正则化
1.3机器学习算法分类
1.3.1监督学习
1.3.2非监督学习
习题
第2章回归
2.1线性回归
2.2Logistic回归
习题
第3章LDA主题模型
3.1LDA简介
3.2数学基础
3.2.1多项分布
3.2.2Dirichlet分布
3.2.3共轭先验分布
3.3LDA主题模型
3.3.1基础模型
3.3.2PLSA模型
3.3.3LDA模型
3.4LDA模型应用实例
3.4.1配置安装
3.4.2文本预处理
3.4.3使用Gensim
习题
第4章决策树
4.1决策树简介
4.1.1一个小例子
4.1.2几个重要的术语及决策树构造思路
4.2离散型决策树的构造
4.3连续性数值的处理
4.4决策树剪枝
习题
第5章支持向量机
5.1分离超平面与最大间隔
5.2线性支持向量机
5.2.1硬间隔
5.2.2软间隔
5.3非线性支持向量机
5.3.1核方法
5.3.2常用的核函数
5.4操作实例: 应用MATLAB多分类SVM、二分类SVM、决策树
算法进行分类
5.4.1数据集选择
5.4.2数据预处理
5.4.3模型表现
5.4.4经验总结
习题
第6章提升方法
6.1随机森林
6.1.1随机森林介绍
6.1.2Bootstrap Aggregation
6.1.3随机森林训练过程
6.1.4随机森林的优点与缺点
6.2Adaboost
6.2.1引入
6.2.2Adaboost实现过程
6.2.3Adaboost总结
6.3随机森林算法应用举例
6.3.1MATLAB中随机森林算法
6.3.2操作实例1: 基于集成方法的IRIS数据集分类
6.3.3操作实例2: 基于ensemble方法的人脸识别
习题
第7章神经网络基础
7.1基础概念
7.2感知机
7.2.1单层感知机
7.2.2多层感知机
7.3BP神经网络
7.3.1梯度下降
7.3.2后向传播
7.4径向基函数网络
7.4.1精确插值与径向基函数
7.4.2径向基函数网络
7.5Hopfield网络
7.5.1Hopfield网络的结构
7.5.2Hopfield网络的训练
7.5.3Hopfield网络状态转移
7.6Boltzmann机
7.7自组织映射网络
7.7.1网络结构
7.7.2训练算法
7.8实例: 使用MATLAB进行Batch Normalization
7.8.1浅识Batch Normalization
7.8.2MATLAB nntool使用简介
习题
第8章深度神经网络
8.1什么是深度神经网络
8.2卷积神经网络
8.2.1卷积神经网络的基本思想
8.2.2卷积操作
8.2.3池化层
8.2.4卷积神经网络
8.3循环神经网络
8.3.1循环单元
8.3.2通过时间后向传播
8.3.3带有门限的循环单元
8.4MATLAB深度学习工具箱简介
8.5利用Theano搭建和训练神经网络
8.5.1Theano简介
8.5.2Theano的基本使用
8.5.3搭建训练神经网络的项目
习题
第9章聚类算法
9.1简介
9.1.1聚类任务
9.1.2基本表示
9.2K Means算法
9.2.1算法简介
9.2.2算法流程
9.2.3K Means的一些改进
9.2.4选择合适的K
9.2.5X Means
9.3层次聚类
9.4聚类算法拓展
9.4.1聚类在信号处理领域的应用
9.4.2以语义聚类的形式展示网络图像搜索结果
习题
第10章寻优算法之遗传算法
10.1简介
10.1.1算法起源
10.1.2基本过程
10.1.3基本表示
10.1.4输入输出
10.1.5优缺点及应用
10.2算法原型
10.2.1初始化
10.2.2评估
10.2.3选择优秀个体
10.2.4交叉
10.2.5变异
10.2.6迭代
10.3算法拓展
10.3.1精英主义思想
10.3.2灾变
习题
第11章项目实践: 基于机器学习的监控视频行人检测与追踪系统
11.1引言
11.2相关算法与指标
11.2.1方向梯度直方图
11.2.2支持向量机
11.2.3结构相似性
11.2.4Haar Like特征
11.2.5级联分类器
11.2.6特征脸
11.3系统设计与实现
11.3.1视频处理模块
11.3.2图像识别模块
11.3.3目标追踪模块
11.4系统测试
11.4.1测试环境
11.4.2系统单元测试与集成测试
11.4.3性能测试
11.4.4系统识别准确率测试
11.5结语
参考文献
序言
前言
本书全面系统地介绍了机器学习的基本概念、预备知识、主要思想、研究进展、基础技术、应用技巧;并围绕当前机器学习领域的热点问题展开讨论。章节安排由浅入深;涵盖回归问题、分类问题、监督学习、无监督学习。具体内容包括决策树、神经网络、支持向量机、遗传算法、集成学习、聚类分析等。各章对原理的叙述力求概念清晰、表达准确;突出理论联系实际;富有启发性;易于理解。辅以代码实践指导;引领读者快速迈进机器学习领域;通过动手实践进一步加深对机器学习算法的理解。
本书注重对数学分析方法和理论的探讨;而且也非常关注神经网络在模式识别、信号处理以及控制系统等实际工程问题中的应用。它完美结合了基础理论与应用实践;可作为高等院校计算机、软件工程、智能科学与技术等专业研究生和高年级本科生的教材;同时对于从事人工智能、数据挖掘、模式识别的相关技术人员也具有较高参考价值。
大数据时代是机器学习最美好的时代。希望本书不仅可以帮助读者深入理解机器学习的概念;在理论分析与实际应用技术的结合中;掌握主流解决方案;更能以一种全新的视角理解在实际软件工程中机器学习的总体思想;在人工智能的大时代中夺得先机!
本书的作者为吕云翔、马连韬、刘卓然、张凡、张程博;另外;曾洪立、吕彼佳、姜彦华进行了素材整理及配套资源制作等。
由于机器学习是一门新兴学科;机器学习的教学方法本身还在探索之中;加之作者的水平和能力有限;书中难免存在疏漏之处;恳请各位同仁和广大读者给予批评指正。也希望各位能将实践过程中的经验和心得与我们交流。
作者
2018年3月
于北京航空航天大学
文摘
第3章LDA主题模型
3.1LDA简介
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型;也称为一个三层贝叶斯概率模型;包含词、主题和文档三层结构;由Blei;David M.Ng;Andrew Y.Jordan在2003年提出。该模型可以将文档集中每篇文档的主题以概率分布的形式给出;从而通过分析一些文档抽取出它们的主题分布出来后;便可以根据主题分布进行主题聚类或文本分类。同时;它采用词袋的方法;这种方法将每一篇文档视为一个词频向量;从而将文本信息转化为易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序;这简化了问题的复杂性;同时也为模型的改进提供了契机。
在LDA主题模型中;一篇文档包含多个主题;而文档中的每一个词都由其中的一个主题生成;而人类生成文档的过程则是: 文档中的每个词都是通过“以一定概率选择了某个主题;并从这个主题中以一定概率选择了某个词语”。
LDA主题模型的三位作者在原始论文中给了一个简单的例子。首先给定了4个主题: Arts、Budgets、Children和Education;然后通过学习训练;获取每个主题对应的词语;如图3.1所示。
图3.1主题及其对应词语
然后以一定概率选取上述4个主题中的某个主题;再以一定概率选取那个主题下的某个单词;不断地重复这两步;最终生成如图3.2所示的一篇文章。
当我们看到一篇文档后;往往会推测这篇文档想要表达的是什么主题;而且我们可能也会认为作者是先确定这篇文章的几个主题;然后围绕这几个主题进行遣词造句;表达成文的。而LDA的任务就是: 根据给定的一篇文档;推测其主题分布。一般来说;假定认为人们都是根据上述文档生成过程写成了各种各样的文章;现在某一部分人想让计算机用LDA干一件事: 计算机推测分析网络上的各篇文章都写了哪些主题;且计算各篇文章中各个主题出现的概率大小(即主题分布)。
ISBN | 9787302496595 |
---|---|
出版社 | 清华大学出版社有限公司 |
作者 | 吕云翔 |
尺寸 | 16 |