R语言商业分析实战 7302489661,9787302489665

配送至
$ $ USD 美元

编辑推荐

利用诸如机器学习等智能技术进行商业分析!

作者简介

作者:(美)优曼许·R.霍奇哈塔 作者:优曼许·纳亚克 译者:王胜夏 译者:杨莉灵 译者:秦双夏
Umesh Rao Hodeghatta博士在机器学习、NLP和商业分析领域中是一名备受赞誉的专家。他拥有俄克拉荷马州立大学电气工程硕士学位、印度理工学院(IIT)卡哈拉格普尔(分院)的博士学位,专业(方向)为机器学习和NLP。Hodeghatta博士在Wipro Technologies、McAfee、Cisco Systems和AT&T Bell实验室担任技术和高级管理职务。而且,他在国际期刊和会议论文集中发表了许多期刊文章。此外,他也是《信息安全导论指南》(The InfoSec Handbook: An Introduction to Information Security)的合著者。Hodeghatta博士为许多专业组织和监管机构做出了不少贡献,其中包括IEEE计算机学会(印度)、美国的信息系统审计和控制协会(ISACA)、(印度)奥迪萨邦政府、印度的国际神经网络学会(INNS),以及商业智能与知识管理专门小组。同时,他也是IEEE的资深成员。如需了解Hodeghatta博士的更多详细信息,请访问www.mytechnospeak.com。可以通过Email:umesh_hr@yahoo.corn与他取得联系。Umesha,Nayak先生是MUSA软件工程总监兼首席顾问,主要负责系统、流程和管理咨询。他拥有35年的工作经验,在此期间从事IT/制造和全球其他组织的咨询工作,时间长达14年。此外,Nayak先生拥有软件系统硕士学位和经济硕士学位。他获得的认证包括印度银行家协会认证专员(CAIIB)、国际信息系统审计师(CISA)和ISACA的风险及信息系统控制认证(CRISC)、财务管理研究生(PGDFM)、多项标准的总审计师,以及认证培训师等。他的工作范围广泛,包括银行、软件开发、产品设计与开发、项目管理、计划管理、信息技术审计、信息应用审计、质量保证、培训、产品可靠性、人力资源管理、商业分析和咨询等。在现任职务之前,他曾在印度金奈的北极星软件实验室担任副总裁兼公司执行理事会成员。1981年,他开始涉足计算机行业,从ICL大型机开始,然后是迷你计算机和个人电脑。Nayak先生也是印度银行业信息系统审计的创始成员之一。依靠成功的ISO 9001、ISO 27001、CMMI和其他认证,以及流程/产品改进和商业分析,Nayak先生给许多组织机构提供了卓有成效的指导。他还和Hodeghatta博士共同撰写了《信息安全导论指南》。他的联系方式为Email:auml36@rediffmai1.com。

目录

目 录
第1章 商业分析简介 1
1.1 本书目的 3
1.2 容易混淆的术语 3
1.3 商业分析的发展动因 4
1.3.1 计算机软件包和应用程序的增长 5
1.3.2 整合各种数据源的可行性 5
1.3.3 无限存储和计算能力的增长 6
1.3.4 简单易用的编程工具和平台 6
1.3.5 竞争激烈世界中的生存与发展 6
1.3.6 全球化商业的复杂性 6
1.4 商业分析的应用 6
1.4.1 市场营销与销售 7
1.4.2 人力资源 7
1.4.3 产品设计 7
1.4.4 服务设计 8
1.4.5 客户服务和支持范围 8
1.5 商业分析师的必备技能 8
1.5.1 理解商业和商业问题 8
1.5.2 理解数据分析技术和算法 9
1.5.3 具备良好的计算机编程知识 9
1.5.4 理解数据结构和数据存储/仓储技术 9
1.5.5 了解统计学和数学的相关概念知识 9
1.6 商业分析项目的分析过程 10
1.7 商业分析框架 11
1.8 小结 12
第2章 R语言概述 13
2.1 数据分析工具 13
2.2 R语言安装 16
2.2.1 安装R语言 16
2.2.2 安装RStudio 17
2.2.3 探索RStudio界面 18
2.3 R编程基础 19
2.3.1 赋值 20
2.3.2 创建向量 21
2.4 R语言对象类型 21
2.5 R语言的数据结构 23
2.5.1 矩阵 23
2.5.2 数组 24
2.5.3 数据框 26
2.5.4 列表 27
2.5.5 因子 28
2.6 小结 29
第3章 R语言数据分析 31
3.1 读写数据 31
3.1.1 从文本文件读取数据 32
3.1.2 从Microsoft Excel文件读取数据 35
3.1.3 从Web读取数据 37
3.2 在R语言中使用控制结构 37
3.2.1 if-else 38
3.2.2 for循环 39
3.2.3 while循环 39
3.2.4 循环功能 40
3.2.5 在R语言中自编函数 47
3.3 使用R语言软件包和库 48
3.4 小结 49
第4章 描述性分析概述 51
4.1 描述性分析 54
4.2 总体和样本 54
4.3 有关的统计参数 55
4.3.1 均值 55
4.3.2 中位数 57
4.3.3 众数 59
4.3.4 全距 59
4.3.5 分位数 60
4.3.6 标准差(Standard Deviation) 61
4.3.7 方差(Variance) 64
4.3.8 R语言的summary命令 64
4.4 数据的图形描述 65
4.4.1 R语言的plot命令 65
4.4.2 直方图 67
4.4.3 条形图 68
4.4.4 箱线图 68
4.5 数据框计算 69
4.6 概率 73
4.6.1 互斥事件的概率 74
4.6.2 相互独立事件的概率 74
4.6.3 非互斥事件概率 75
4.6.4 概率分布 75
4.7 小结 77
第5章 商业分析过程与数据探索 79
5.1 商业分析过程 79
5.1.1 第一阶段:理解商业问题 79
5.1.2 第二阶段:收集和整合数据 79
5.1.3 第三阶段:预处理数据 80
5.1.4 第四阶段:探索和可视化数据 80
5.1.5 第五阶段:选择建模技术和算法 81
5.1.6 第六阶段:评估模型 81
5.1.7 第七阶段:管理和审查报告 81
5.1.8 第八阶段:部署模型 81
5.2 理解商业问题 82
5.3 收集和整合数据 82
5.3.1 抽样 83
5.3.2 变量选择 84
5.4 预处理数据 85
5.4.1 数据类型 85
5.4.2 数据准备 86
5.4.3 使用R语言进行数据预处理 87
5.5 数据探索和数据可视化 91
5.5.1 表格 92
5.5.2 汇总表 92
5.5.3 图形 93
5.5.4 散点图矩阵 97
5.5.5 数据转换 101
5.6 使用建模技术和算法 102
5.6.1 描述性分析 103
5.6.2 预测分析 103
5.6.3 机器学习 103
5.7 评估模型 106
5.7.1 训练数据分区 106
5.7.2 测试数据分区 106
5.7.3 验证数据分区 107
5.7.4 交叉验证 107
5.7.5 分类模型评估 108
5.7.6 回归模型评估 111
5.8 提交管理报告和审查 112
5.8.1 描述问题 112
5.8.2 使用的数据集 112
5.8.3 执行数据清洗 112
5.8.4 创建模型的方法 112
5.8.5 模型部署前提条件 113
5.8.6 模型部署和使用 113
5.8.7 问题处理 113
5.9 部署模型 113
5.10 小结 114
第6章 监督机器学习:分类 115
6.1 什么是分类?什么是预测? 115
6.2 概率分类器模型 116
6.2.1 示例 117
6.2.2 R语言朴素贝叶斯分类器 118
6.2.3 朴素贝叶斯分类器的优点和局限性 119
6.3 决策树 120
6.3.1 递归分割决策树算法 121
6.3.2 信息增益 121
6.3.3 决策树示例 123
6.3.4 决策树归纳 124
6.3.5 树分类规则 127
6.3.6 过拟合和欠拟合 127
6.3.7 偏差和方差(Bias and Variance) 128
6.3.8 避免过拟合误差和确定决策树生长的规模 129
6.4 其他分类器类型 131
6.4.1 K-最近邻 131
6.4.2 随机森林 132
6.5 R语言分类示例 134
6.6 小结 138
第7章 无监督机器学习 139
7.1 聚类概述 139
7.2 什么是聚类 140
7.2.1 两个记录之间的测量方法 141
7.2.2 分类变量的距离度量 142
7.2.3 混合型数据的距离度量 142
7.2.4 两个聚类之间的距离 143
7.3 层次聚类 145
7.3.1 树状图 145
7.3.2 层次聚类的局限性 145
7.4 非层次聚类 146
7.4.1 k-means算法 146
7.4.2 k-means聚类的局限性 147
7.5 聚类案例研究 148
7.5.1 仅保留数据集中的相关变量 149
7.5.2 从数据集中删除任何异常值 149
7.5.3 数据归一化(Standardize the Data) 150
7.5.4 计算数据点之间的距离 150
7.6 关联规则 157
7.6.1 选择规则 158
7.6.2 关联规则生成示例 160
7.6.3 解读结果 161
7.7 小结 162
第8章 简单线性回归分析 163
8.1 概述 163
8.2 相关性 164
8.3 假设检验 167
8.4 简单线性回归分析 168
8.4.1 回归假设 168
8.4.2 简单线性回归方程 168
8.4.3 R语言创建简单回归方程 169
8.4.4 检验回归假设 171
8.4.5 结论 176
8.4.6 预测响应变量 176
8.4.7 补充说明 177
8.5 小结 178
第9章 多元线性回归分析 179
9.1 使用多元线性回归分析 180
9.1.1 数据 181
9.1.2 相关性 181
9.1.3 构建模型 182
9.1.4 验证回归假设 184
9.1.5 多重共线性 188
9.1.6 逐步多元线性回归分析 190
9.1.7 全子集多元线性回归分析 191
9.1.8 多元线性回归方程 193
9.1.9 结论 193
9.2 R语言的替代方法 193
9.3 预测响应变量 194
9.4 训练和测试模型 195
9.5 交叉验证 196
9.6 小结 198
第10章 逻辑回归分析 201
10.1 逻辑回归 202
10.1.1 数据 203
10.1.2 构建模型 204
10.1.3 模型拟合验证 207
10.1.4 一般注意事项 208
10.1.5 多重共线性 208
10.1.6 离散 209
10.1.7 逻辑回归分析结论 209
10.2 模型训练和测试 209
10.2.1 预测响应变量 211
10.2.2 验证逻辑回归模型的其他替代方法 212
10.3 多项逻辑回归分析 213
10.4 正则化 214
10.5 小结 220
第11章 大数据分析:介绍及未来趋势 221
11.1 大数据生态系统 222
11.2 大数据分析的未来趋势 225
11.2.1 发展壮大的社交媒体 225
11.2.2 创建数据湖 225
11.2.3 企业用户手中的可视化工具 225
11.2.4 规范性分析 225
11.2.5 物联网 226
11.2.6 人工智能 226
11.2.7 全数据处理 226
11.2.8 数据垂直应用和横向应用 226
11.2.9 实时分析 226
11.2.10 将数据分析工具交由企业用户使用 227
11.2.11 将解决方案从一个工具迁移到另一个工具 227
11.2.12 云无处不在 227
11.2.13 数据库内分析 227
11.2.14 内存分析 228
11.2.15 机器学习的自主服务 228
11.2.16 安全和合规性 228
11.2.17 医疗保健 228

引用 95
第4章 制作自动机器车 97
自动系统介绍 97
介绍移动机器人 99
搭建机器车 100
DIY机器人平台 100
集成的机器人平台 102
使用Pololu Zumo robot for Arduino 104
用计算机控制机器车 109
使用GPS模块导航 117
介绍地图引擎平台 124
制作基于GPS的小车 128
制作自动机器车 130
总结 131
引用 131
第5章 在物联网项目中添加语音技术 133
语音技术介绍 133
声音传感器和驱动器介绍 134
语音技术的模式识别介绍 143
介绍语音和声音模块 143
为物联网项目增加语音控制 145
设置EasyVR shield 3 145
创建语音命令 148
给语音板布线 151
编写Sketch程序 151
测试 157
让IoT板说话 157
设置 157
布线 157
编写Sketch程序 158
测试 159
让Raspberry Pi说话 159
设置 159
编写Python程序 162
下一步是什么? 163
总结 163
引用 163
第6章 为物联网项目搭建数据云 165
对云技术的介绍 165
介绍基于云的数据科学 166
连接IoT板到云服务器 167
微软Azure IoT 167
AWS IoT 168
Arduino云 168
使用微软Azure IoT Hub 180
设置微软Azure IoT Hub 180
注册IoT设备 182
编写程序 186
构建科学型云平台 192
部署Azure机器学习 193
发布到Azure ML作为Web服务 194
构建带有科学型数据云的IoT应用 196
总结 196
引用 197

序言

近几年来,随着计算机和新一代信息技术的蓬勃发展,商业大数据也呈爆炸性增长。在商业领域,各个行业、企业或组织都遇到了前所未有的全球化、区域化或细分市场多元化的挑战和机遇,他们在激烈竞争中对生存和成长的需求推动了对大数据发展的探索和研究。有效地处理、分析和应用这些大数据解决商业问题,已成为当今各个商业领域的迫切需求,相应地也使商业分析师变得倍受欢迎。
有志于涉足商业分析的读者,将会从本书中获益匪浅。本书最显著的特点是以丰富的案例阐述、解释和演示商业分析涉及的理论和技术,虽然涉及R语言、数学和统计学理论,但并不晦涩难懂。本书列举了数据分析在许多应用场景和商业分析中的案例,探讨了商业分析师所需的技能和商业分析项目的过程,并且以R语言作为演示本书当中概念的一种统计工具,通过详实的案例讲述了如何编写R语言程序处理数据、分析模型的构建以及从中吸取有益的推论。同时,阐述了数据挖掘及其相关技术,也揭示了机器学习的基本概念和生成预测建模,最后还讲述了如何定义商业问题及提出相关的解决方案。
本书将有助于读者了解当前行业、企业或组织中所面临的具体商业问题,以及学习采取哪些相应的措施去分析和解决读者所研究的商业问题。书中还包含了一些重要的商业分析技术的学习案例,如分类、关联、聚类以及回归分析等。读者可以根据商业需求选择不同的方法和技术去解决实际商业问题。如果读者对商业分析感兴趣,这就是一本具有实战指导意义的书籍。
除王胜夏、杨莉灵和秦双夏之外,参与本书翻译的还有吴骅、罗平章、李远明、王学昌、周娟、刘红军、王玲、郑正正、莫鸿强等人,感谢这些同行对本书的辛勤付出。由于水平有限,译文中的不当之处在所难免,恳请各位同行和读者朋友不吝赐教。
ISBN7302489661,9787302489665
出版社清华大学出版社
作者Dr. Umesh R. Hodeghatta Umesha Nayak
尺寸16