
编辑推荐
《天体光谱数据挖掘与分析》可以作为高等院校计算机、天文学专业的高年级本科生与研究生的学习参考书。
作者简介
杨海峰,博士,太原科技大学计算机学院副教授,研究方向:人工智能与数据挖掘、河外星系光谱分析。近年来主持和参与国家、省部级科研项目多项,发表学术论文近30多篇,其中SCI收录18篇。
目录
第1章绪论1
1.1天体光谱1
1.1.1LAMOST光谱巡天2
1.1.2SDSS光谱巡天5
1.1.3光谱分析6
1.2数据挖掘7
1.2.1产生和定义·7
1.2.2数据挖掘任务与分类10
1.2.3主要应用12
1.3海量天体光谱数据挖掘14
1.3.1分类14
1.3.2聚类及离群分析17
1.3.3关联规则19
1.3.4恒星大气参数测量·20
1第2章基于模糊识别的双红移系统星系光谱搜寻与分析24
2.1引言25
2.2基于模糊识别的搜寻方法27
2.2.1样本选择27
2.2.2方法描述28
2.3结果分析35
2.3.1SDSSDR9和LAMOSTDR1中SGPs样本·35
2.3.2光谱与图像分析39
2.3.3尘埃消光测量48
2.4讨论51
第3章稀有光谱检索的PU学习方法53
3.1问题提出54
3.2二部排序模型·56
3.2.1TopPush方法57
3.2.2面向稀有光谱检索的BaggingTopPush方法58
3.3实验设计59
3.3.1样本选择60
3.3.2实验设置61
3.3.3评价指标64
3.4结果分析65
3.4.1排序效果65
3.4.2排序效率72
3.4.3参数敏感性·74
3.5讨论76
第4章E+A星系搜寻与分析78
4.1问题提出78
4.2E+A星系光谱搜寻方法80
4.2.1样本选择—LAMOST数据集·80
4.2.2搜寻方法80
4.2.3近邻E+A星系星表83
4.3结果分析87
4.3.1样本分布特征87
4.3.2星族合成分析90
4.3.3图像分析92
4.4讨论95
第5章基于贝叶斯支持向量机的光谱分类方法·98
5.1问题提出98
5.2基于贝叶斯支持向量机的分类方法100
5.2.1支持向量机·100
5.2.2贝叶斯推理·101
5.2.3马尔可夫链蒙特卡罗101
5.2.4贝叶斯支持向量机·102
5.3实验分析107
5.3.1样本选择107
5.3.2预处理方法·108
5.3.3实验参数设置112
5.3.4结果分析113
5.4讨论116
第6章基于分类模式树的恒星光谱自动分类方法·117
6.1问题提出118
6.2恒星光谱分类模式树119
6.3分类模式树构造方法120
6.3.1算法思想120
6.3.2算法描述121
6.3.3算法分析122
6.4分类规则提取及恒星光谱分类·122
6.5实验分析123
6.6讨论127
……
第7章恒星光谱分类规则后处理方法·129
参考文献144
附录 A SDSS DR9和LAMOST DR1的SGPs样本清单149
附录 B LAMOST DR2的E+A样本清单·159
附录 C LAMOST DR2的E+A样本测光信息清单163
序言
前 言
仰望璀璨的星空,辽阔而深邃,自由而宁静,吸引着人们苦苦追寻与不断探索的向往。LAMOST 是一架横卧南北方向的中星仪式反射施密特望远镜,在5 度视场、直径为1.75 米的焦面上放置0 根光纤,可以同时获得0 个天体的光谱,是当前世界上光谱获取率最高的望远镜。随着LAMOST 正式巡天的实施,已成功获取600 万条天体光谱以及星表,并每天以海量的数字增长着,对长期传统的人工分析、人眼证认等任务带来了巨大挑战。而数据挖掘,作为一门新兴的学科分支,涉及人工智能、机器学习、模式识别等多个学科领域,主要任务是从大量的原始数据中提取潜在的、人们感兴趣的知识,已被广泛地应用于科学、工程、商业等领域。将数据挖掘技术应用于海量的天体光谱数据中,获取潜在的、有意义的天体规律及性质,对更有效地使用巡天数据、进一步深入天文学理论研究都具有比较重要的应用价值。
近年来作者一直从事数据挖掘应用与天体光谱分析交叉领域的研究,在深入了解光谱分析任务、分析当前数据急剧增长特点的基础上,结合计算机技术优势,开展了一系列的研究工作,本书是近年来相关科研成果的总结。全书除绪论主要介绍天体光谱数据的主要特征以及数据挖掘技术的基本理论外,主要内容分两大部分共6 章,具体章节编排如下:
(一)特殊、稀有天体的挖掘及分析(包括第2 章至第4 章)。第2 章针对星系光谱中呈现的双红移系统,提出一种基于模糊识别的光谱特征线识别方法,并采用SDSS DR9 和LAMOST DR2 的星系光谱数据,系统地搜寻了具有双红移系统的星系光谱并对其结果进行了光谱及图像分类、特例分析、前景星系消光测量等方面的讨论;第3 章针对碳星光谱中存在的模板较少从而导致从海量数据中搜寻比较困难的问题,提出一种新的高效的PU 学习方法,并选择SDSS DR10 中十万余条光谱实现验证了该方法的搜寻质量和效率。第4 章针对LAMOST 河外星系光谱分辨率及信噪比等特征,修正了[OII]、H?、H?特征线边界,通过测量其等值宽度并按照经典(Goto.提出)的判定依据,从LAMOST DR2 中系统搜寻了E+A 星系,并对其结果进行了红移分布、空间分布、星等分布特征、图像特征以及星族特征等方面的讨论。
(二)光谱分类及后处理方法研究(包括第5 章至第7 章)。第5章针对巡天数据分析中最基本的光谱型分类问题,提出一种基于贝叶斯支持微量机的光谱自动分类方法,选择SDSS DR10 的M 型恒星光谱,实验验证了该方法在光谱子型的分类上具有较高的准确率及效率,同时对预处理过程中噪声、归一化方法、特征提取方法对分类结果的影响进行了讨论;第6 章针对恒星光谱分类任务,提出一种基于分类模式树的恒星光谱分类规则挖掘方法。采用SDSS 恒星光谱作为实验数据,验证了该方法的正确性,而且具有较高的分类正确率;第7 章针对采用数据挖掘方法提取的光谱分类规则中存在的冗余严重影响分类效率和质量的问题,提出基于谓词逻辑、集合运算的两种分类规则后处理方法,从而减小分类器的大小。采用SDSS 恒星光谱数据,实验验证了这两种方法在不降低分类准确率的前提下,可以有效提高分类效率。)特殊、稀有天体的挖掘及分析(包括第2 章至第4 章)。本书的完成得到了太原科技大学人工智能实验室、计算机科学与技术学院、中科院国家天文台各位老师的大力支持,特别是张继福教授、罗阿理研究员为本书提出了许多宝贵的建议,在此一并致以诚挚的谢意。
本书所涉及的部分研究工作得到了国家自然科学基金项目(项目编号: 61272263, 61572343)、山西省科技攻关项目( 项目编号:2015031009)和太原科技大学博士启动基金(项目编号:20162007)的资助,在此向相关机构表示深深的感谢。
由于作者水平有限,书中难免有不妥之处,欢迎各位专家和广大
读者批评指正。
编 者
2016 年11 月
文摘
版权页:
插图:
目前对于光谱数据的分析和处理主要集中在分类和识别方法上,其目标是如何提高分类准确率及效率。近年来典型的成果有:RBFN—DDA是一种利用动态衰减的径向基函数神经网络对类星体和星系自动识别的方法,其解决了一般神经网络在训练数据时如何选择合适数量神经元的问题,提高了光谱自动识别的效率;杨金福等于2006年提出的基于覆盖算法的光谱自动分类方法,其判别函数只与训练样本的支撑点有关,而光谱数据中支撑点一般都较少,因此该方法具有高效、低容的特点;Auto Class是一种无监督的Bayesian分类方法,Yan T S et al.将该方法应用到SDSS DR7光谱数据样本中,从中选择非恒星对象,从而构造纯恒星样本,通过对该样本的集群分析,发现了617个非恒星候选体;Liangping Tu等提出采用神经网络自动分类方法,此方法在LAMOST光谱自动分类实验中具有较高的准确率:此外,还有赵梅芳等提出了基于K近邻方法的窄线与宽线活动星系核自动光谱分类方法:张继福等提出了一种基于背景知识和粗糙集的天体光谱分类规则提取方法以及基于约束概念格的恒星光谱数据自动分类方法等。
分类知识库的复杂性是影响光谱分类效率的一个重要因素,以上文献的出发点都是采用不同的方法或者其改进,使得在获取恒星光谱分类规则的过程中可以进行修剪,从而提高光谱识别效率,在恒星光谱分类规则集的整体特点及规则间、规则内部关系的分析上存在局限。恒星光谱数据中,由于各波长段的流量特征、各波长段流量间的关系比较复杂以及数据本身具有海量、高维特性,使得采用常规方法获取的恒星光谱分类规则集容量较大,并且规则间、规则内会存在大量冗余。
《天体光谱数据挖掘与分析》可以作为高等院校计算机、天文学专业的高年级本科生与研究生的学习参考书。
作者简介
杨海峰,博士,太原科技大学计算机学院副教授,研究方向:人工智能与数据挖掘、河外星系光谱分析。近年来主持和参与国家、省部级科研项目多项,发表学术论文近30多篇,其中SCI收录18篇。
目录
第1章绪论1
1.1天体光谱1
1.1.1LAMOST光谱巡天2
1.1.2SDSS光谱巡天5
1.1.3光谱分析6
1.2数据挖掘7
1.2.1产生和定义·7
1.2.2数据挖掘任务与分类10
1.2.3主要应用12
1.3海量天体光谱数据挖掘14
1.3.1分类14
1.3.2聚类及离群分析17
1.3.3关联规则19
1.3.4恒星大气参数测量·20
1第2章基于模糊识别的双红移系统星系光谱搜寻与分析24
2.1引言25
2.2基于模糊识别的搜寻方法27
2.2.1样本选择27
2.2.2方法描述28
2.3结果分析35
2.3.1SDSSDR9和LAMOSTDR1中SGPs样本·35
2.3.2光谱与图像分析39
2.3.3尘埃消光测量48
2.4讨论51
第3章稀有光谱检索的PU学习方法53
3.1问题提出54
3.2二部排序模型·56
3.2.1TopPush方法57
3.2.2面向稀有光谱检索的BaggingTopPush方法58
3.3实验设计59
3.3.1样本选择60
3.3.2实验设置61
3.3.3评价指标64
3.4结果分析65
3.4.1排序效果65
3.4.2排序效率72
3.4.3参数敏感性·74
3.5讨论76
第4章E+A星系搜寻与分析78
4.1问题提出78
4.2E+A星系光谱搜寻方法80
4.2.1样本选择—LAMOST数据集·80
4.2.2搜寻方法80
4.2.3近邻E+A星系星表83
4.3结果分析87
4.3.1样本分布特征87
4.3.2星族合成分析90
4.3.3图像分析92
4.4讨论95
第5章基于贝叶斯支持向量机的光谱分类方法·98
5.1问题提出98
5.2基于贝叶斯支持向量机的分类方法100
5.2.1支持向量机·100
5.2.2贝叶斯推理·101
5.2.3马尔可夫链蒙特卡罗101
5.2.4贝叶斯支持向量机·102
5.3实验分析107
5.3.1样本选择107
5.3.2预处理方法·108
5.3.3实验参数设置112
5.3.4结果分析113
5.4讨论116
第6章基于分类模式树的恒星光谱自动分类方法·117
6.1问题提出118
6.2恒星光谱分类模式树119
6.3分类模式树构造方法120
6.3.1算法思想120
6.3.2算法描述121
6.3.3算法分析122
6.4分类规则提取及恒星光谱分类·122
6.5实验分析123
6.6讨论127
……
第7章恒星光谱分类规则后处理方法·129
参考文献144
附录 A SDSS DR9和LAMOST DR1的SGPs样本清单149
附录 B LAMOST DR2的E+A样本清单·159
附录 C LAMOST DR2的E+A样本测光信息清单163
序言
前 言
仰望璀璨的星空,辽阔而深邃,自由而宁静,吸引着人们苦苦追寻与不断探索的向往。LAMOST 是一架横卧南北方向的中星仪式反射施密特望远镜,在5 度视场、直径为1.75 米的焦面上放置0 根光纤,可以同时获得0 个天体的光谱,是当前世界上光谱获取率最高的望远镜。随着LAMOST 正式巡天的实施,已成功获取600 万条天体光谱以及星表,并每天以海量的数字增长着,对长期传统的人工分析、人眼证认等任务带来了巨大挑战。而数据挖掘,作为一门新兴的学科分支,涉及人工智能、机器学习、模式识别等多个学科领域,主要任务是从大量的原始数据中提取潜在的、人们感兴趣的知识,已被广泛地应用于科学、工程、商业等领域。将数据挖掘技术应用于海量的天体光谱数据中,获取潜在的、有意义的天体规律及性质,对更有效地使用巡天数据、进一步深入天文学理论研究都具有比较重要的应用价值。
近年来作者一直从事数据挖掘应用与天体光谱分析交叉领域的研究,在深入了解光谱分析任务、分析当前数据急剧增长特点的基础上,结合计算机技术优势,开展了一系列的研究工作,本书是近年来相关科研成果的总结。全书除绪论主要介绍天体光谱数据的主要特征以及数据挖掘技术的基本理论外,主要内容分两大部分共6 章,具体章节编排如下:
(一)特殊、稀有天体的挖掘及分析(包括第2 章至第4 章)。第2 章针对星系光谱中呈现的双红移系统,提出一种基于模糊识别的光谱特征线识别方法,并采用SDSS DR9 和LAMOST DR2 的星系光谱数据,系统地搜寻了具有双红移系统的星系光谱并对其结果进行了光谱及图像分类、特例分析、前景星系消光测量等方面的讨论;第3 章针对碳星光谱中存在的模板较少从而导致从海量数据中搜寻比较困难的问题,提出一种新的高效的PU 学习方法,并选择SDSS DR10 中十万余条光谱实现验证了该方法的搜寻质量和效率。第4 章针对LAMOST 河外星系光谱分辨率及信噪比等特征,修正了[OII]、H?、H?特征线边界,通过测量其等值宽度并按照经典(Goto.提出)的判定依据,从LAMOST DR2 中系统搜寻了E+A 星系,并对其结果进行了红移分布、空间分布、星等分布特征、图像特征以及星族特征等方面的讨论。
(二)光谱分类及后处理方法研究(包括第5 章至第7 章)。第5章针对巡天数据分析中最基本的光谱型分类问题,提出一种基于贝叶斯支持微量机的光谱自动分类方法,选择SDSS DR10 的M 型恒星光谱,实验验证了该方法在光谱子型的分类上具有较高的准确率及效率,同时对预处理过程中噪声、归一化方法、特征提取方法对分类结果的影响进行了讨论;第6 章针对恒星光谱分类任务,提出一种基于分类模式树的恒星光谱分类规则挖掘方法。采用SDSS 恒星光谱作为实验数据,验证了该方法的正确性,而且具有较高的分类正确率;第7 章针对采用数据挖掘方法提取的光谱分类规则中存在的冗余严重影响分类效率和质量的问题,提出基于谓词逻辑、集合运算的两种分类规则后处理方法,从而减小分类器的大小。采用SDSS 恒星光谱数据,实验验证了这两种方法在不降低分类准确率的前提下,可以有效提高分类效率。)特殊、稀有天体的挖掘及分析(包括第2 章至第4 章)。本书的完成得到了太原科技大学人工智能实验室、计算机科学与技术学院、中科院国家天文台各位老师的大力支持,特别是张继福教授、罗阿理研究员为本书提出了许多宝贵的建议,在此一并致以诚挚的谢意。
本书所涉及的部分研究工作得到了国家自然科学基金项目(项目编号: 61272263, 61572343)、山西省科技攻关项目( 项目编号:2015031009)和太原科技大学博士启动基金(项目编号:20162007)的资助,在此向相关机构表示深深的感谢。
由于作者水平有限,书中难免有不妥之处,欢迎各位专家和广大
读者批评指正。
编 者
2016 年11 月
文摘
版权页:
插图:
目前对于光谱数据的分析和处理主要集中在分类和识别方法上,其目标是如何提高分类准确率及效率。近年来典型的成果有:RBFN—DDA是一种利用动态衰减的径向基函数神经网络对类星体和星系自动识别的方法,其解决了一般神经网络在训练数据时如何选择合适数量神经元的问题,提高了光谱自动识别的效率;杨金福等于2006年提出的基于覆盖算法的光谱自动分类方法,其判别函数只与训练样本的支撑点有关,而光谱数据中支撑点一般都较少,因此该方法具有高效、低容的特点;Auto Class是一种无监督的Bayesian分类方法,Yan T S et al.将该方法应用到SDSS DR7光谱数据样本中,从中选择非恒星对象,从而构造纯恒星样本,通过对该样本的集群分析,发现了617个非恒星候选体;Liangping Tu等提出采用神经网络自动分类方法,此方法在LAMOST光谱自动分类实验中具有较高的准确率:此外,还有赵梅芳等提出了基于K近邻方法的窄线与宽线活动星系核自动光谱分类方法:张继福等提出了一种基于背景知识和粗糙集的天体光谱分类规则提取方法以及基于约束概念格的恒星光谱数据自动分类方法等。
分类知识库的复杂性是影响光谱分类效率的一个重要因素,以上文献的出发点都是采用不同的方法或者其改进,使得在获取恒星光谱分类规则的过程中可以进行修剪,从而提高光谱识别效率,在恒星光谱分类规则集的整体特点及规则间、规则内部关系的分析上存在局限。恒星光谱数据中,由于各波长段的流量特征、各波长段流量间的关系比较复杂以及数据本身具有海量、高维特性,使得采用常规方法获取的恒星光谱分类规则集容量较大,并且规则间、规则内会存在大量冗余。
ISBN | 9787121307683 |
---|---|
出版社 | 电子工业出版社 |
作者 | 杨海峰 |
尺寸 | 16 |