实战大数据:MATLAB数据挖掘详解与实践 9787302451013

配送至
$ $ USD 美元

编辑推荐

这是一本真正具备中国特色的数据挖掘手册,各种常规方法一应俱全,作者是高校教授,同时也是若干公司的数据挖掘顾问,难得的理论储备与实践经验都十分深厚,表达能力也很强,也了解痛点。基于这些背景创作的这本书,非常好。

媒体推荐

大数据时代,我们需要对各种海量数据进行筛选、清洗、挖掘,在这个过程中,获取有效数据的方式方法和模型算法成为了整个数据挖掘过程的重点,MATLAB作为一个数据挖掘工具,如何正确和准确地使用它成为了重中之重。针对实际应用数据挖掘技术的要求,本书既介绍了数据挖掘的基础理论和技术,又较为详细地介绍了各种算法以及MATLAB程序。本书共分4篇,分别介绍了数据挖掘的基本概念、技术与算法以及应用实例。期望通过大量的实例分析帮助广大读者掌握数据挖掘技术,并应用于实际的研究中,提高对海量数据信息的处理及挖掘能力。本书针对性和实用性强,具有较高的理论和实用价值。本书作者就职于部队高校,专攻数据挖掘,并应用于大量实际项目,本书同时得到了靠前有名数据挖掘公司的技术支持,很多案例来自实际项目。本书可作为高等院校计算机工程、信息工程、生物医学工程、化学、环境、经济、管理等学科的研究生、本科生的教材或教学参考书,亦可作为企*单位管理者、信息分析人员、市场营销人员和研究与开发人员的参考资料。

作者简介

许国根,毕业于南京大学分析化学专业,长期奋斗在一线的高校资深化学教师。为了实现“数学化学”梦想,一直致力于数学在化学中的应用研究,热衷于MATLAB、模式识别、数据挖掘、化学计量学等相关知识的学习与应用,撰写过多部介绍MATLAB在化学中应用技巧的书籍。

目录

目录



第1章绪论 1
1.1数据挖掘概述 2
1.2数据挖掘的分类 4
1.3数据挖掘的过程 5
1.4数据挖掘的任务 6
1.5数据挖掘的对象 8
1.5.1数据库 8
1.5.2文本 10
1.5.3图像与视频数据 10
1.5.4Web数据 11
1.6数据挖掘建模方法 11
1.6.1业务理解 12
1.6.2数据理解 13
1.6.3数据准备 13
1.6.4建模 14
1.6.5评估 15
1.6.6部署 16
1.7数据挖掘的应用 16
1.7.1在金融领域的应用 16
1.7.2在零售业中的应用 17
1.7.3在电信业的应用 18
1.7.4在管理中的应用 19
1.7.5在化学研究领域中的应用 19
1.7.6在材料研究、生产方面的应用 20
1.7.7在机械故障诊断与监测中的应用 21
1.7.8在医疗领域中的应用 22
第2章数据挖掘算法 25
2.1决策树算法 26
2.1.1决策树基本算法 27
2.1.2ID3算法 29
2.1.3C4.5算法 30
2.1.4CART算法 31
2.1.5决策树的评价标准 32
2.1.6决策树的剪枝及优化 33
2.1.7基于matlab的决策树分析 34
2.2人工神经网络算法 41
2.2.1人工神经网络概述 41
2.2.2人工神经网络的基本模型 41
2.2.3BP神经网络 43
2.2.4RBF神经网络 45
2.2.5SOM神经网络 46
2.2.6反馈型神经网络(Hopfield) 47
2.2.7基于matlab的神经网络方法 49
2.3进化算法 55
2.3.1进化算法的基本原理 56
2.3.2基因算法的主要步骤 60
2.3.3基本遗传算法 61
2.3.4进化规划算法 63
2.3.5进化策略计算 64
2.3.6量子遗传算法 68
2.3.7人工免疫算法 72
2.3.8基于matlab的进化算法 80
2.4统计分析方法 87
2.4.1假设检验 87
2.4.2回归分析 91
2.4.3二项逻辑(logistic)回归 100
2.4.4方差分析 104
2.4.5主成分分析 107
2.4.6因子分析 110
2.4.7基于matlab的统计分析方法 113
2.5贝叶斯网络方法 141
2.5.1贝叶斯定理、先验和后验 142
2.5.2贝叶斯网络 142
2.5.3贝叶斯网络学习 143
2.5.4主要贝叶斯网络模型 145
2.5.5基于matlab的贝叶斯网络方法 148
2.6支持向量机 160
2.6.1支持向量机概述 160
2.6.2核函数 162
2.6.3基于matlab的支持向量机方法 164
2.7关联分析 167
2.7.1概述 167
2.7.2Apriori关联规则算法 170
2.7.3基于分类搜索的关联规则算法 171
2.7.4时序关联规则算法 173
2.7.5多值属性关联规则算法 174
2.7.6增量关联规则算法 175
2.7.7基于关联规则的分类算法 176
2.7.8模糊关联分类算法 177
2.7.9关联规则的评价 178
2.7.10辛普森悖论 179
2.7.11基于matlab的关联规则分析 180
2.8其他数据挖掘方法 182
2.8.1近邻法 182
2.8.2K-means聚类 184
2.8.3基于matlab的近邻法及k-means聚类法 187
第3章数据挖掘相关技术 191
3.1数据仓库 192
3.1.1概述 192
3.1.2数据仓库设计 195
3.1.3数据仓库的开发应用 199
3.1.4数据仓库的技术管理 209
3.1.5OLAP技术 210
3.1.6基于matlab的数据仓库开发技术 214
3.2模糊集理论 234
3.1.1模糊集合 234
3.1.2模糊关系 237
3.1.3模糊聚类 239
3.3.5基于matlab的模糊集处理技术 244
3.3粗糙集技术 255
3.3.1粗糙集理论的基本概念 256
3.3.2分类规则的形成 259
3.3.3知识的约简 259
3.3.4模糊集与粗糙集 261
3.3.5基于matlab的粗糙集处理方法 262
3.4目标优化技术 265
3.4.1极值问题 266
3.4.2无约束非线性规划 267
3.4.3有约束非线性规划 270
3.4.4大规模优化问题的分解算法 270
3.4.5其他优化方法 273
3.4.6基于matlab的目标优化方法 274
3.5可视化技术 281
3.5.1可视化技术分类 282
3.5.2多维数据可视化 283
3.5.3图形的特征分析 294
3.5.4基于多元图的图形分类方法 297
3.5.5基于色度学空间的多元图表示 299
3.5.6基于matlab的数据可视化技术 300
3.6公式发现 314
3.6.1概述 315
3.6.2公式发现系统中的知识 315
3.6.3基于matlab的公式发现 319
3.7多媒体数据挖掘技术 320
3.7.1文本挖掘 323
3.7.2图像挖掘 331
3.7.3视频挖掘 331
3.7.4音频挖掘 332
3.7.5复合类型数据的挖掘 333
3.8Web数据挖掘技术 334
3.8.1Web内容挖掘 335
3.8.2Web结构挖掘 337
3.8.3Web使用挖掘 338

第4章数据挖掘应用实战 343
4.1数据关系发现 344
4.2数据统计特性 344
4.3数据预处理 349
4.3.1数据清理 349
4.3.2数据集成与转换 351
4.3.3数据归约与浓缩 353
4.3.4数值数据的概念分层与离散化 360
4.3.5例题 362
4.4分类 373
4.5例题 376
4.6预测 381
4.6.1回归分析 381
4.6.2时间序列预测模型 385
4.6.3马尔可夫链 389
4.6.4灰色系统方法 390
4.6.5例题 398
4.7聚类 418
4.7.1聚类分析概述 418
4.7.2聚类分析中的数据类型 419
4.7.3相似性度量 422
4.7.4聚类的特征 427
4.7.5聚类准则 427
4.7.6划分方法 429
4.7.7层次方法 430
4.7.8基于密度的方法 433
4.7.9基于网格的方法 434
4.7.10基于模型的聚类方法 435
4.4.11基于目标函数的方法 436
4.7.12离群点检测 438
4.7.13聚类有效性 445
4.7.14例题 448
4.8时序数据挖掘 462
4.8.1基本定义 463
4.8.2时序数据挖掘参数 464
4.8.3时序关联规则 464
4.8.4时间序列挖掘 466
4.8.5时间序列分段线性表示 468
4.8.6时间序列的预测 469
4.8.7例题 469
4.9关联规则挖掘 481
4.9.1关联规则的类型及挖掘算法 481
4.9.2基于组织进化的关联规则挖掘 481
4.9.3基于组织层次进化的关联规则挖掘 483
4.9.4多维关联规则挖掘 484
4.9.5关联规则扩展 485
4.9.6例题 487
参考文献 500

序言

本书按照理论基础、实现步骤、实例三部分内容进行阐述,避免空洞的理论说教,着重介绍应用实例,具有较强的指导性和实用性,使读者不至于面对如此丰富的理论和方法无所适从,而是通过了解各种算法的实现思路和方法,体会算法源代码的意义,这样即使所举的实例不属于读者从事的学科,也能举一反三,掌握数据挖掘技术并应用于自己从事的科学研究中。
本书分为4篇,每篇涵盖的内容比较广泛,既有对数据挖掘概念的讨论,也有对数据挖掘技术和原理的介绍,而且编写了大量的实例,并给出了相应的程序。第1篇介绍数据挖掘的相关概念以及在多个领域中的应用情况;第2篇介绍数据挖掘算法,包括人工神经网络、决策树、遗传算法、关联分析、统计分析方法、支持向量机及一些聚类算法;第3篇介绍与数据挖掘相关的一些技术,包括数据仓库、模糊集理论、粗糙集技术、目标优化技术、可视化技术、公式发现、多媒体数据挖掘技术及Web数据挖掘技术;第4篇介绍数据挖掘具体应用实例,重点介绍数据预处理技术、聚类、分类、预测、关联规则分析、时间序列分析等方法。
本书的出版得到了清华大学出版社的大力支持,编辑栾大成为本书内容等许多方面提出了宝贵的意见。书中参考了许多学者的研究成果,在此一并表示衷心的感谢!
由于数据挖掘的内容非常丰富,所涉及的学科也较多,且限于作者学识水平,书中难免存在缺点、错误以及疏漏,敬请读者批评斧正。

许国根
本书习题代码下载

说明:本书习题按照“篇”分类,共三个文件夹,请对应正文的习题编号进行查询。

后记

大数据落地必备技术支撑,MATLAB数据挖掘技术大全,数据分析与数据统计全攻略。

文摘

3.1人工神经网络概述
人工神经网络(Artificial Neural Network,ANN)有时简称为神经网络,是在现代生物学研究人脑组织所取得成果的基础上提出的,它利用大量简单的处理单元广泛连接组成的复杂网络,来模拟人类大脑的神经网络结构和行为。它的研究成果显示了人工神经网络具有人脑功能的基本物质特征——学习、记忆、概括、归纳和抽取等,从而解决了人工智能研究中的某些局限性。它不同于以前人工智能领域中普遍采用的基于逻辑和符号处理的理论和方法,而是开辟了崭新的途径。
神经网络的产生是从生物学上获得的灵感,它将实现模拟生物神经元的某些基本功能的元件组织起来,而组织方式或是按人脑组织方式,或是根本不按人脑组织方式,不管其是高度相似,还是简单模仿,神经网络仍能显示其惊人的与人脑相近的特性。例如,它能学习专门知识,从先前已有的实例中概括出新的例子。
随着神经网络的大量开创性应用,可以发现,不管网络的组织形式如何,它们均有以下三个共同的特性。
(1)学习。神经网络具有对周围环境自学习、自适应的功能。这种学习机制基于网络的组织形式能适应各种学习算法,而学习算法是指网络能根据训练实例来决定自身的行为,当出现一组输入信息(或附有所需的输出结果)时,它们能不断调整,产生一系列一致的结果,犹如人们智能活动“习惯成自然”一样,反映出网络的学习性能。
(2)概括。一旦训练后,神经网络的响应能在某种程度上对外界输出信息的少量丢失或神经网络组织的局部缺损不再很敏感。这种机制与大脑每日有大量神经网络正常死亡但并不影响大脑的功能,或者大脑局部损伤会引起某些功能的逐渐衰退,但不是功能完全丧失一样,反映了神经网络的鲁棒性,即具有容错能力。
(3)抽取。神经网络还有一种抽取外界输入信息特征的特殊功能,可以从不完善的数据和图形进行学习和做出决定。一旦训练完成,就能从给定的输入模式快速计算出结果。如对它进行一张人像的一系列不完整的照片识别训练之后,再任选一张缺损的照片让神经网络识别,网络将会做出一个完整形式的人像照片的响应。在某种意义上可以说它能“创造”出以前从未见到的某些东西。
人工神经网络的这些基本特征反映了它能较之其他人工智能理论和方法更好地解决这方面的任务。同时,也可以看出它实现的是右半脑直觉形象思维的特性,而传统人工智能理论和方法实现左半脑逻辑思维的特性,它们有着互补的作用,而不是简单取代的关系。正是具有这些特点,人工神经网络在人工智能、自动控制、计算机科学、信息处理、模式识别等领域得到了广泛的应用。
ISBN9787302451013
出版社清华大学出版社
作者栾大成
尺寸16