云计算与大数据实验教材系列:Mahout实验指南 9787307127692

配送至
$ $ USD 美元

编辑推荐

《云计算与大数据实验教材系列:Mahout实验指南》由武汉大学出版社出版。

作者简介

李琳,博士,武汉理工大学计算机科学与技术学院教授。近年来主要从事信息检索与推荐系统、数据挖掘与知识管理、自然言语处理与机器学习等方面的研究工作,先后承担国家863项目、国家自然科学基金、湖北省科技重大专项等项目20余项。主要研究方向:研究人工智能方法和大规模数据分析技术,特别是互联网数据挖掘、文本分析、信息检索和推荐系统等相关问题,致力于将数据挖掘、机器学习与知识发现技术结合。

目录

1概述
1.1数据挖掘
1.1.1推荐系统
1.1.2聚类算法
1.1.3分类算法
1.1.4监督学习和无监督学习
1.1.5关联规则
1.2Mahout使用说明
1.2.1关于Mahout
1.2.2配置Mahout
2推荐系统
2.1知识要点
2.1.1推荐系统定义
2.1.2查准率与查全率
2.1.3协同过滤
2.1.4相似度计算
2.2创建一个推荐程序
2.2.1创建输入
2.2.2运行推荐程序
2.3评估一个推荐程序
2.4基于用户的协同过滤
2.4.1算法思想
2.4.2基于欧几里得距离的user—based推荐程序
2.5基于商品的协同过滤
2.5.1算法思想
2.5.2基于欧几里得距离的item—based推荐程序
2.6Slope—one推荐算法
2.6.1算法思想
2.6.2Slope—one推荐程序
3聚类算法
3.1知识要点
3.1.1TFIDF权重
3.1.2向量空间模型及距离度量
3.1.3k—means聚类算法
3.1.4模糊k—means聚类算法
3.2聚类示例
3.2.1生成输入数据
3.2.2使用Mahout聚类
3.3使用各种距离度量
3.3.1欧氏距离测度
3.3.2平方欧氏距离测度
3.3.3曼哈顿距离测度
3.3.4余弦显巨离测度
3.3.5谷本距离测度
3.4数据向量化表示
3.4.1将数据转换为向量
3.4.2从文档中生成向量
3.5k—means新闻聚类
3.5.1内存k—means聚类
3.5.2Hadoop下的k—means新闻文本聚类
3.6模糊k—means新闻聚类
3.6.1内存模糊k—means聚类
3.6.2Hadoop下的模糊k—means新闻文本聚类
4分类算法
4.1知识要点
4.1.1分类算法基本流程
4.1.2最近邻分类器
4.1.3逻辑回归分类算法
4.1.4SVM分类算法
4.1.5朴素贝叶斯分类算法
4.1.6决策树
4.1.7随机森林分类算法
4.1.8人工神经网络分类器
4.2简单分类示例——填充颜色分类器
4.2.1查看数据
4.2.2训练模型
4.3文本分类算法准备工作
4.3.1训练分类器流程
4.3.2实现文本的词条化和向量化
4.4逻辑回归新闻分类算法
4.4.1准备数据集
4.4.2模型建立与评估
4.4.3部分运行过程
4.5朴素贝叶斯新闻分类算法
4.6隐马尔科夫模型
5关联规则
5.1知识要点
5.1.1频繁项集发现
5.1.2支持度和置信度
5.1.3Apriori关联规则挖掘算法
5.2关联规则挖掘示例
5.2.1发现频繁项集
5.2.2产生关联规则
参考文献

文摘

版权页:

插图:

通过推荐系统的智能分析和挖掘,能够有效地帮助用户根据海量信息做出决策。本章的实验从简单推荐系统的实现人手,着重介绍了基于相似度计算的协同过滤方法和快速在线计算的Slope—one推荐方法,并对推荐系统性能进行了评估检验。
2.1知识要点
2.1.1推荐系统定义
推荐系统可以定义为一个软件代理,它能够智能地去分析用户的兴趣和喜好,同时根据用户的兴趣和喜好来进行推荐。一般来说,推荐系统的主要功能是预测。预测用户对一个没有买过的商品的购买可能性或者兴趣度。我们知道用户的喜好、用户的地域分布、年龄等各种用户属性信息,此外还知道用户对购买过的商品的打分情况以及商品的属性信息。推荐系统就会根据这些信息来形成最终的预测打分。主要方法有两大类:一类是基于内容的推荐,另外一类是基于协同过滤的推荐。第1章中提到的基于内存和基于模型的推荐都可以看做协同过滤方法。
基于内容的推荐主要根据用户以前买过的商品,预测哪个商品和用户以前买过的商品比较相似?换句话说就是“Show me more of the same what I've liked”。而协同过滤的思想是考虑朋友的兴趣或者购买历史。比如用户以前买过一些商品,同时用户的朋友也买过一些商品,协同过滤根据用户朋友购买的商品向用户进行推荐。还可以把各种推荐技术融合在一起,混合地进行推荐,我们称之为“混合推荐方法”。本章给出的实例以基于领域的协同过滤方法为主,围绕相似度(距离)度量、基于用户的协同过滤、基于商品的协同过滤和推荐评价四个方面展开学习。
2.1.2查准率与查全率
对于一个给定的用户,评价推荐系统的质量或者推荐的准确度,可以采用查准率与查全率两个指标来衡量,它们也是信息检索领域常用的评价指标。信息检索和推荐系统都属于信息过滤,从大量信息中过滤得到和用户需求匹配的集合或者列表。
ISBN9787307127692
出版社武汉大学出版社
作者李琳
尺寸16