大数据原理与实践:复杂信息的准备、共享和分析(原书第2版)233847 9787111657903

配送至
$ $ USD 美元

商品编号: 6432779 类别: 图书 计算机/网络 数据库
开本:16开
纸张:胶版纸
包装:平装-胶订
是否套装:否
国际标准书号ISBN:9787111657903
所属分类:图书>计算机/网络>数据库>数据仓库与数据挖掘
商品详情

编辑推荐
大数据原理与实践
复杂信息的准备、共享和分析
(原书第版)
美 朱尔斯· 伯曼( ) 著
张桂刚 邢春晓 任广皓 王云 译

内容简介
当大数据资源变得越发复杂时,仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关专业的学生阅读。

作者简介
美朱尔斯· 伯曼( ) 著:朱尔斯· 伯曼( ) 拥有麻省理工学院数学和地球与行星科学两个学士学位,天普大学哲学博士学位,以及迈阿密大学医学博士学位。撰写信息科学、计算机程序设计和病理学三个专业领域的著作近本。年,伯曼博士成为美国病理信息学协会主席,年荣获该协会终身成就奖。

目 录

第版前言
第版前言
作者简介
第章 引言
大数据的定义
大数据与小数据
大数据在哪里
大数据最常见的目的是产生小数据
大数据是研究领域的中心话题
术语表
参考文献
第章 为非结构化数据提供结构
几乎所有数据都是非结构化的、
译者序
第版前言
第版前言
作者简介
第章 引言
大数据的定义
大数据与小数据
大数据在哪里
大数据最常见的目的是产生小数据
大数据是研究领域的中心话题
术语表
参考文献
第章 为非结构化数据提供结构
几乎所有数据都是非结构化的、
不可用的原始形式
词汇索引
术语提取
构建索引
自动编码
案例研究:宇宙中任意原子精确位置的快速定位(需要安装一些软件)
案例研究(高级):一个完整的自动编码器(行代码)
案例研究:以词汇索引进行文本转换
案例研究(高级): 变换
术语表
参考文献
第章 标识、去标识和重标识
什么是标识符
标识符和标识系统之间的区别
生成唯一标识符
糟糕的标识方法
注册唯一对象标识符
去标识和重标识
案例研究:数据清理
案例研究(高级):图像标题中的标识符
案例研究:单向散列函数
术语表
参考文献
第章 元数据、语义和三元组
元数据
可扩展标记语言
语义和三元组
命名空间
案例研究:三元组的语法
案例研究:
术语表
参考文献
第章 分类和本体论
关于对象关系的全部
分类:最简单的本体
本体:有多个父类的类
分类模型选择
类混合
本体开发的常见陷阱
案例研究:上层本体
案例研究(高级):悖论
案例研究(高级):框架和类属性
案例研究(高级):可视化类关系
术语表
参考文献
第章 内省
自我认知
数据对象:每个大数据集合中最基本的元素
大数据如何使用内省
案例研究:时间戳数据
案例研究: 简介
案例研究(高级):大数据必须是面向对象的证明
术语表
参考文献
第章 标准和数据集成
标准
规范与标准
版本控制
合规问题
案例研究:标准化巧克力茶壶
术语表
参考文献
第章 不变性和永久性
数据不变性的重要性
不变性和标识符
数据产生数据
跨机构协调标识符
案例研究:可信时间戳
案例研究:区块链和分布式账本
案例研究(高级):零知识协调
术语表
参考文献
第章 评估大数据资源的充分性
观察数据
大数据的最小必要属性
附加条件的数据
案例研究:用于查看和搜索大型文件的实用程序
案例研究:数据扁平化
术语表
参考文献
第章 测量
准确性与精度
数据范围
计数
数据标准化和变换
约简数据
理解控制
没有实际意义的统计意义
案例研究:基因计数
案例研究:早期生物特征和狭窄数据范围的意义
术语表
参考文献
第章 快速简单的大数据分析必不可少的技巧
速度和可扩展性
适用于大数据的快速操作,并且每台计算机都支持
点积—一种简单快速的相关方法
聚类
数据持久性方法(不使用数据库)
案例研究:爬升分类
案例研究(高级):数据库示例
案例研究(高级):
术语表
参考文献
第章 寻找大型数据集中的线索
分母
词频分布
异常值和异常
封底分析
案例研究:预测用户偏好
案例研究:人口数据的多模态
案例研究:大小黑洞
术语表
参考文献
第章 使用随机数将大数据分析问题的规模缩小
(伪)随机数的显著效用
重采样
蒙特卡罗模拟法
案例研究:中心极限定理的证明
案例研究:发生一连串小概率事件的频率
案例研究:臭名昭著的生日问题
案例研究(高级):蒙提霍尔问题
案例研究(高级):贝叶斯分析
术语表
参考文献
第章 大数据分析中的特殊注意事项
数据搜索理论
理论搜索中的数据
巨大的偏差
大数据的数据子集:不可加和不传递
其他大数据陷阱
案例研究(高级):维数灾难
术语表
参考文献
第章 大数据的失败以及如何避免
失败很常见
失败的标准
复杂性
逐步走进大数据分析
失败之后
案例研究:癌症生物医学信息学网格—遥远的桥
案例研究:高斯函数
术语表
参考文献
第章 数据再分析:比分析更重要
第一次分析(几乎) 是错的
为什么再分析比分析更重要
案例研究:旧对撞机数据的再分析
案例研究:通过再分析证明
案例研究:从旧数据中寻找新行星
术语表
参考文献
第章 大数据再利用
什么是数据再利用
暗数据、废弃数据和遗留数据
案例研究:从邮政编码到人口统计学基础
案例研究:基因序列数据库的科学推断
案例研究:将全球变暖与高强度飓风联系起来
案例研究:用地质数据推断气候趋势
案例研究:环月影像恢复工程
术语表
参考文献
第章 数据共享和数据安全
什么是数据共享,为什么我们不共享更多数据
常见的不满
数据安全和加密协议
案例研究:火星上的生命
案例研究:个人标识符
术语表
参考文献
第章 合法性
对数据的准确性和合法性负责
创建、使用和共享资源的权利
因使用标准而招致的版权和专利侵权行为
对个人的保护
许可问题
未经许可的数据
隐私策略
案例研究:大数据的时效性
案例:哈瓦苏派的故事
术语表
参考文献
第章 社会问题
公众的大数据感知
用大数据降低成本和提高生产效率
公众的疑虑
从自己做起
谁是大数据
傲慢和夸张
案例研究:公民科学家
案例研究:乔治·奥威尔的《》
术语表
参考文献

商品详情
书名:正版特价大数据原理与实践:复杂信息的准备、共享和分析(原书第版)
图书定价:元
图书作者:美朱尔斯· 伯曼( )
出版社:机械工业出版社
出版日期:
号:
开本:开
页数:
版次: