大数据分析方法 9787504764164

配送至
$ $ USD 美元

编辑推荐

作者开展大数据分析项目研究方法的总结和归纳,内容极基实用

作者简介

陆红,副教授,北京信息职业技术学院技术应用研究所所长,多年从事计算机领域研究,主要研究方向:大数据、人工智能、软件技术。主持多项省部级课题,其中一项获教育部科技成果奖。编写多部著作,发表多篇相关领域的学术论文。作为多个部委专家,主持完成多个部委信息化建设标准制定工作。主持完成多个部委信息化建设项目。

目录

目录

1大数据采集处理方法1
11爬虫程序设计方案1
12爬虫程序实现方法5
13数据清洗20
2大数据存储方法27
21分布式文件系统存储大数据27
211HDFS体系结构27
212HDFS数据存储方式28
213HDFS读写方式28
22分布式数据库存储大数据32
221Hbase体系结构32
222配置Hbase33
223Hbase表操作38
224访问Hbase数据资源44
3大数据计算方法50
31分布式计算平台构建方法50
32分布式计算框架构建方法60
33分布式计算程序设计方法63
4大数据分析模型构建方法78
41准备训练数据78
42机器学习路径和算法设计方法82
43数据可视化辅助建模方法88
44构建大数据分析模型91
5大数据分析模型检验方法108
51回归诊断108
52交叉验证113
6大数据分析模型优化方法117
61Feature Scaling优化法117
62逐步回归优化法118
63PCA主成分分析优化方法120
64神经网络优化大数据分析模型127
参考文献151

序言

为什么要写本书

大数据时代,人们面对大数据,首先想到的是如何分析大数据,目前介绍大数据分析方法的书籍却不是很多。作者从事大数据分析研究工作多年,很想将做过的大数据研究课题积累的一些分析方法分享给各位读者。

本书组织结构

本书的结构依据大数据的处理构建的,包括:组织,依次为大数据采集处理方法、大数据存储方法、大数据分布式计算方法、大数据分析模型构建方法、大数据分析模型检验方法、大数据分析模型优化方法。

本书的主要内容

第1章介绍了大数据采集处理方法,重点介绍了如何从互联网上采集数据,介绍了“网络爬虫程序”的设计和编写方法以及数据清洗方法,着重介绍如何清洗机器学习训练数据。

第2章介绍了大数据存储方法,重点介绍了分布式文件存储系统的原理、配置方法与使用方法。重点介绍了分布式数据库Hbase原理、配置方法与使用方法。

第3章介绍了大数据分布式计算的实现方法,详细介绍了如何搭建Hadoop大数据处理平台,列举了详细的搭建过程,提供了Hadoop搭建所需的各种配置文件源代码,提供了构建Hadoop所需的命令语句。着重介绍了MapReduce框架结构,运行机理,MapReduce源代码分析,各种接口和类分析。本章给出了丰富的MapReduce示例,对示例进行详细的解读,读者可以模仿示例编写自己的MapReduce程序。

第4章介绍了大数据分析模型构建方法,主要介绍了如何通过机器学习方法构建大数据分析模型。

第5章介绍了大数据分析模型的检验方法,分析模型建立以后如何进行检验,这往往是一个难点,如何检验模型是否达到了最初设计标准,用什么手段来检验非常关键,检验方法是否科学都很重要。此章还介绍了机器学习构建模型常用的检验方法,如回归诊断、交叉验证等方法。

第6章重点介绍了模型建立以后,如何优化,介绍了几种优化方法,如逐步递归法、主成分分析优化方法等,特别介绍了通过神经网络进行优化。

本书的优势

本书的内容是作者从事科研项目的一些亲身经历,开展大数据分析项目研究方法的总结和归纳,内容非常实用,为从事大数据分析的研究人员提供了研究步骤和方法。本书的模式是提出问题,然后给出解决方法,这样读者如遇到类似问题就可以参考书中提供的方法加以解决。

本书的受众群体

本书的读者主要是从事大数据分析的研究人员,大数据分析系统开发人员,使用本书的人员应该在大数据分析方面有一定的基础,本书的内容比较深入,跳过了基本概念和基本理论,主要论述和探索大数据分析深层次的内容和方法。

致谢

本书是基于北京市教委科技计划一般课题:“基于机器学习方法的房价大数据分析模型构建研究”(课题编号:KM201610857002)研究内容编写的。

感谢项目组成员冀钢、刘瑞新、范美英对本项目做出的贡献。感谢参与和支持本项目的所有人员。感谢寇俊玲主编严谨和辛勤的工作。
ISBN9787504764164
出版社中国财富出版社
作者陆红
尺寸16