《计算机视觉:模型、学习和推理》 西蒙J.D.普林斯 (Simon J.D.Prince), 苗启广, 刘凯, 孔韦韦, 许鹏飞 9787111516828

配送至
$ $ USD 美元

编辑推荐

《计算机视觉:模型、学习和推理》由机械工业出版社出版。

名人推荐

“这本书是计算机视觉和机器学习相结合的产物。针对现代计算机视觉研究,本书讲述与之相关的机器学习基础这真是一本好书,书中的任何知识点都表述得通俗易懂,当我读这本书的时候,我常常赞叹不已,对于从事计算机视觉的研究者与学生,本书是一本非常重要的书,我非常期待能够在课堂上讲授这门课”
——William T.Freeman,麻省理工学院
“本书针对计算机视觉学科深入浅出地介绍概率模型相应的数学基础知识,所描述的相关知识都配备了详细而准确的例子与应用。大多数现代计算机视觉重点研究视觉处理工作,本书是对当前这一现状完美的补充,本书重点讲述基本的技术,强调与学习和推理有关的模型以及相应的方击。每一个严谨的学生和研究者都将发现本书的价值,在过去的两年多时间里,在我所任课的视觉与学习课程中,我都用到了本书中相关章节的知识。同时,在接下来的时间里,我在授课过程中将继续参考本书。”
——David J.Fleel,多伦多大学
“本书是Prince的代表作,为理解现代计算机视觉提供了一个完整的概率框架,借助简洁明了的知识点描述,意义明确的插图,相应的示倒应用程序,相关的知识点练习,有关的数学背景知识及相关的伪代码,本书详细描述了学习计算机视觉这门学科所需要具备的所有知识。”
——Roberto Cipolla,剑桥大学

作者简介

Simon J. D. Prince博士,伦敦大学学院计算机科学系高级讲师。他主讲的课程包括:计算机视觉、图像处理和高级数学方法。他有着计算机科学和生物学的专业背景,发表了多篇论文,涉及计算机视觉、生物测定学、心理学、生理学、医学影像、计算机图形学和人机交互。

目录

译者序
译者简介

前言
第1章绪论
1.1本书结构
1.2其他书籍
第一部分概率
第2章概率概述
2.1随机变量
2.2联合概率
2.3边缘化
2.4条件概率
2.5贝叶斯公式
2.6独立性
2.7期望
讨论
备注
习题
第3章常用概率分布
3.1伯努利分布
3.2贝塔分布
3.3分类分布
3.4狄利克雷分布
3.5一元正态分布
3.6正态逆伽马分布
3.7多元正态分布
3.8正态逆维希特分布
3.9共轭性
总结
备注
习题
第4章拟合概率模型
4.1最大似然法
4.2最大后验法
4.3贝叶斯方法
4.4算例1:一元正态分布
4.4.1最大似然估计
4.4.2最大后验估计
4.4.3贝叶斯方法
4.5算例2:分类分布
4.5.1最大似然法
4.5.2最大后验法
4.5.3贝叶斯方法
总结
备注
习题
第5章正态分布
5.1协方差矩阵的形式
5.2协方差分解
5.3变量的线性变换
5.4边缘分布
5.5条件分布
5.6正态分布的乘积
5.7变量改变
总结
备注
习题
第二部分机器视觉的机器学习
第6章视觉学习和推理
6.1计算机视觉问题
6.2模型的种类
6.2.1判别模型
6.2.2生成模型
6.3示例1:回归
6.3.1判别模型
6.3.2生成模型
6.4示例2:二值分类
6.4.1判别模型
6.4.2生成模型
6.5应该用哪种模型
6.6应用
6.6.1皮肤检测
6.6.2背景差分
总结
备注
习题
第7章复杂数据密度建模
7.1正态分类模型
7.2隐变量
7.3期望最大化
7.4混合高斯模型
7.4.1混合高斯边缘化
7.4.2基于期望最大化的混合模型拟合
7.5t分布
7.5.1学生t分布边缘化
7.5.2拟舍t分布的期望最大化
7.6因子分析
7.6.1因子分析的边缘分布
7.6.2因子分析学习的期望最大化
7.7组合模型
7.8期望最大化算法的细节
7.8.1期望最大化算法的下界
7.8.2E步
7.8.3M步
7.9应用
7.9.1人脸检测
7.9.2目标识别
7.9.3分割
7.9.4正脸识别
7.9.5改变人脸姿态(回归)
7.9.6作为隐变量的变换
总结
备注
习题
第8章回归模型
8.1线性回归
8.1.1学习
8.1.2线性回归模型的问题
8.2贝叶斯线性回归
8.2.1实际考虑
8.2.2拟合方差
8.3非线性回归
8.3.1最大似然法
8.3.2贝叶斯非线性回归
8.4核与核技巧
8.5高斯过程回归
8.6稀疏线性回归
8.7二元线性回归
8.8相关向量回归
8.9多变量数据回归
8.10应用
8.10.1人体姿势估计
8.10.2位移专家
讨论
备注
习题
第9章分类模型
9.1逻辑回归
9.1.1学习:最大似然估计
9.1.2逻辑回归模型的问题
9.2贝叶斯逻辑回归
9.2.1学习
9.2.2推理
9.3非线性逻辑回归
9.4对偶逻辑回归模型
9.5核逻辑回归
9.6相关向量分类
9.7增量拟合和boostjng
9.8分类树
9.9多分类逻辑同归
9.10随机树、随机森林和随机蕨分类器
9.11与非概率模型的联系
9.12应用
9.12.1性别分类
9.12.2脸部和行人检测
9.12.3语义分割
9.12.4恢复袁面布局
9.12.5人体部位识别
讨论
备注
习题
第三部分连接局部模型
第10章图模型
10.1条件独立性
10.2有向图模型
10.2.1示例1
10.2.2示例2
10.2.3示例3
10.2.4总结
10.3无向图模型
10.3.1示例1
10.3.2示例2
10.4有向图模型与无向图模型的对比
10.5计算机视觉中的图模型
10.6含有多个未知量的模型推理
10.6.1求最大后验概率的解
10.6.2求后验概率分布的边缘分布
10.6.3最大化边缘
10.6.4后验分布的采样
10.7样本采样
10.7.1有向图模型的采样
10.7.2无向图模型的采样
10.8学习
10.8.1有向图模型的学习
10.8.2无向图模型的学习
讨论
备注
习题
第11章链式模型和树模型
11.1链式模型
11.1.1有向链式模型
11.1.2无向链式模型
11.1.3模型的等价性
11.1.4隐马尔可夫模型在手语中的应用
11.2链式MAP推理
11.3树的MAP推理
11.4链式边缘后验推理
11.4.1求解边缘分布
11.4.2前向后向算法
11.4.3置信传播
11.4.4链式模型的和积算法
11.5树的边缘后验推理
11.6链式模型和树模型的学习
11.7链式模型和树模型之外的东西
11.8应用
11.8.1手势跟踪
11.8.2立体视觉
11.8.3形象化结构
11.8.4分割
讨论
备注
习题
第12章网格模型
12.1马尔可夫随机场
12.1.1网格示例
12.1.2离散成对MRF图像去噪
12.2二值成对马尔可夫随机场的MAP推理
12.2.1最大流/最小割
12.2.2MAP推理:二值变量
12.3多标签成对MRF的MAP推理
12.4非凸势的多标签MRF
12.5条件随机场
12.6高阶模型
12.7网格有向模型
12.8应用
12.8.1背景差分
12.8.2交互式分割
12.8.3立体视觉
12.8.4图像重排
12.8.5超分辨率
12.8.6纹理合成
12.8.7合成新面孔
讨论
备注
习题
第四部分预处理
第13章图像预处理与特征提取
13.1逐像素变换
13.1.1白化
13.1.2直方图均衡化
13.1.3线性滤波
13.1.4局部二值模式
13.1.5纹理基元映射
13.2边缘、角点和兴趣点
13.2.1Canny边缘检测器
13.2.2Harris角点检测器
13.2.3SIFT检测器
13.3描述子
13.3.1直方图
13.3.2SIFT描述于
13.3.3方向梯度直方图
13.3.4词袋描述子
13.3.5形状内容描述子
13.4降维
13.4.1单数值近似
13.4.2主成分分析
13.4.3二元主成分分析
13.4.4K均值算法
结论
备注
习题
第五部分几何模型
第14章针孔摄像机
14.1针孔摄像机简介
14.1.1归一化摄像机
14.1.2焦距参数
14.1.3偏移量和偏移参数
14.1.4摄像机的位置与方向
14.1.5全针孔摄像机模型
14.1.6径向畸变
14.2三个几何问题
14.2.1问题1:学习外在参数
14.2.2问题2:学习内在拳数
14.2.3问题3:推理3D世界点
14.2.4解决问题
14.3齐次坐标
14.4学习外在参数
14.5学习内在参数
14.6推理3D世界点
14.7应用
14.7.1结构光的深度
14.7.2剪影重构
讨论
备注
习题
第15章变换模型
15.1二维变换模型
15.1.1欧氏变换模型
15.1.2相似变换模型
15.1.3仿射变换模型
15.1.4投影变换模型
15.1.5增加不确定性
15.2变换模型中的学习
15.2.1学习欧氏参数
15.2.2学习相似参数
15.2.3学习仿射参数
15.2.4学习投影参数
15.3变换模型中的推理
15.4平面的三个几何问题
15.4.1问题1:学习外在参数
15.4.2问题2:学习内在参数
15.4.3问题3:与摄像机相关的3D位置推理
15.5图像间的变换
15.5.1单应性的几何特征
15.5.2计算图像间的变换
15.6变换的鲁棒学习
15.6.1RANSAC
15.6.2连续RANSAC
15.6.3PEaRL
15.7应用
15.7.1增强现实追踪
15.7.2视觉全景
讨论
备注
习题
第16章多摄像机系统
16.1双视图几何学理论
16.1.1极线约束
16.1.2极点
16.2实矩阵
16.2.1实矩阵的属性
16.2.2实矩阵的分解
16.3基础矩阵
16.3.1基础矩阵的估计
16.3.28点算法
16.4双视图重构的流程
16.5校正
16.5.1平面校正
16.5.2极面校正
16.5.3校正后处理
16.6多视图重构
16.7应用
16.7.1三维重构
16.7.2图片浏览
16.7.3立体图割
讨论
备注
习题
……
第六部分视觉模型
第七部分附录

序言

序Computer Vision:Models,Learning,and Inference我对本书从开始到后期发展的情况已经有了一个大概的了解,非常荣幸被邀请为本书写序。我是刚好参加了BMVC 2011之后开始写这篇序的,在该会议上,我发现已经有其他学者开始阅读本书的草稿了,并且还听到一些诸如“What amazing figures!”“It’s so comprehensive!”以及 “He’s so Bayesian!”等很好的评价。
如果仅仅因为本书含有精美的插图、对每一种新的视觉算法提出新的见解或者因为它很“贝叶斯”,那么我不建议你阅读这本书。我建议你阅读它的主要原因是:它清晰地阐明了在计算机视觉研究中最重要的区别,即“模型”和“算法”之间的区别。这种区别就类似于Marr用三层计算理论进行阐释,而Prince的两层差异用概率论的语言完美清晰地阐明。
那为什么这种区别如此重要呢?让我们看看视觉领域中一个古老而又简单的问题:将一幅图像分离为“前景”和“背景”。经常会听到刚刚接触视觉研究的学生像早期的视觉研究者一样通过叙述算法来处理这一问题。首先使用主成分分析(PCA)方法找到主要的颜色轴,然后生成一幅灰度图像,接着进行阈值化处理,最后使用形态学操作符清理孔洞。然而,当他们运用这些方法在一些测试图像上进行实验时就会发现,真正的图像是更复杂的,所以需要补充新的处理步骤:需要使用某种形式的自适应阈值处理方法,并且可以通过模糊边缘图像和求图像局部极大值来获取这些阈值。
然而,多数读者都已经知道这些方法是非常脆弱的。因为使用这些多变的“幻数”控制方法中相互影响的步骤,不可能获得一个能够适用于所用图像(甚至是一个可用的子集)的参数集合。这一问题的根源在于算法根本就没有明确其具体的目标是什么。“前景”和“背景”的分离到底意味着什么?我们能够从数学模型上详细阐述这一问题吗?当计算机视觉的研究人员开始处理这些问题时,统计语言和马尔可夫随机场能够清晰地表现出目标和算法之间的差异。我们所撰写的内容不是解决问题的具体步骤,而是问题本身,例如:求最小值的函数。本书给出了定义问题的所有概率分布的公式,并提供了依据这些分布规律来获得最终答案的相应操作。本书揭示了这种方法是怎样处理多种视觉问题的,以及如何更简单地推导出鲁棒性更强的解决方案。
但是,这并不意味着我们提出模型,再让他人去求解它的各项参数,因为可能模型的空间要远多于其得到的解空间。因此,人们潜意识会记住那些已知能够求解的模型集合,并且总是为那些具有可行性解的问题寻找其相应的模型。在这一阶段,人们就会在策略上进行深入思考,例如:我能够扩展alpha expansion算法来求解离散的参数,然后使用高斯牛顿法(GaussNewton)求解连续的参数,虽然这些方法可能执行效率低,但是它表明了我们努力地提出一种更高效的联合算法是值得的。这一策略是非常常见并且有用的,它能够使得人们在潜意识中一直保持创建模型的思想。
然而,即使树立本书倡导的科学态度,如今经验丰富的研究人员也陷入难以分清模型与算法之间区别的困境。他们发现自己是这样思考问题的:我将针对具体的色彩分布选择合适的高斯混合模型,然后对这些混合权值进行建模以构建MRF模型,并且利用图像分割的理论对模型进行更新,再返回到第1步重新执行。好的方面是,此方法能够转换为模型。即使拟合模型的...已知方法是刚刚提到的方法,将它作为一个模型的学科也允许你对它进行推理,以充分利用可供选择的技术,最后进行更好的研究。阅读这本书是提高自身能力的一个可靠方式。
那么能够让我们成为更优秀的研究人员的概率语言是什么?让我们以贝叶斯定理中的工程师观点为例,我们通常听到贝叶斯和频率论之间的差异,但是我认为许多工程师都认为贝叶斯理论有很多基本问题:贝叶斯肯定在说谎。他们接近以前的平均值的估计和传感器的读数有很大的不同。例如一个能够测量身高的机器,其中的传感器有1cm误差的均匀分布,每当能够在1cm误差范围内准确预测出某人的身高就能够获得1英镑。根据贝叶斯定理,如果传感器读取的数据是200cm±1cm,那么应该报告199cm;这种方式能够比猜测实际传感器的读数赚取更多的钱,因为比起那些身高200cm的人,身高199cm的人更多。因此,作为一名工程师,我认为贝叶斯理论是一种能够获得最优解的方法,并且从务实(但比我自己的要更加精细)的角度看,它在本书中是非常受欢迎的。我甚至怀疑本书是一本带有视觉样例的统计学书籍,而非一本基于概率论的视觉书籍。
如果在我写完这篇序之后还没有提及书中的插图,那将是我的错误。书中的这些插图非常好,但这并不是因为它们很漂亮(虽然它们通常很美),而是因为这些插图甚至为那些最基本算法的工作原理和思路提供了重要的见解。第2~4章的插图是理解现代贝叶斯推理的基础,然而,我怀疑只有少数研究人员曾看过所有这些插图。后面的插图则能够非常清晰地表达极其复杂的思想,同时也非常清楚地表达了基础算法的实现过程,这些都真实地展示了底层模型是如何影响算法性能的。
最后,我认为这本书值得与我的同事Richard Szeliski最近写的一本教科书进行直接比较。那本书也是一本非常全面的计算机视觉图书,书中包含优美的插图、深刻的见解,并对大量现有的计算机视觉算法进行了有益综合。但从真正意义上来说,这两本书是分别站在教学方法的两个对立面的:Szeliski对计算机视觉研究领域最新的技术进行了全面总结,而这本书揭示了如何在计算机视觉研究领域取得进展。在今后的几十年里,我将会一直收藏这两本书,或者一直把它们放在我的书桌上,便于自己经常翻阅。
——Andrew FitzgibbonMicrosoft Research,Cambridge

文摘

版权页:

插图:
ISBN9787111516828
出版社机械工业出版社
作者西蒙J.D.普林斯 (Simon J.D.Prince)
尺寸16