零基础入门Pandas—Python数据分析 9787302678861

配送至
$ $ USD 美元

开本:16开
纸张:胶版纸
包装:平装-胶订
是否套装:否
国际标准书号ISBN:9787302678861
所属分类:图书>计算机/网络>程序设计>Python
轻松掌握数据分析工具,零基础入门库

编辑推荐

本书特色
()细致讲解了的基础知识和常见用法,用简单实例阐述如何使用解决复杂的现实问题。
()提供了将与真实数据集结合使用的入门知识,涵盖组合数据集、处理缺失数据以及构建数据集等,指导建立预测、聚类、推理和探索的模型,便于进行数据分析和可视化。
()从基本的字符串操作到跨数据帧同时应用函数,书中内容涉及强大的数据清理技术。
()介绍如何利用、、和等库辅助进行数据分析,涵盖数据处理、数据可视化、数据建模等内容。

前 言
我的数据科学教学生涯始于年第一次参加研讨班。此后,就一直在从事这方面的教学工作。年,我有幸成为现为 教育集团的一名实习生。那时,数据科学教育方兴未艾。实习结束之后,我想将教学与医学的结合作为我的博士学位论文选题。幸运的是,我认识学校的一位图书管理员 ,她把我介绍给了
,也对健康科学中的数据科学教学很感兴趣。之后的故事大家都知道了。成为了我的博士生导师,我和指导委员会的其他成员,包括 、 和 ,一起研究医学和生物医学领域中的数据科学教育。本书第版为我的学位论文研讨班要讲授哪些数据科学的相关内容奠定了基础。本书第版纳入了我在学习和研究教育和教学法时学到的许多内容。
在撰写本书的过程中,我遇到了很多人,也从他们身上学到了很多东西,其中很多都是关于最佳实践的,比如编写向量化语句以替代循环语句、测试代码,以及组织项目目录结构等。从实际的教学过程中我也学到了很多关于教学的知识,以教促学确实是学习新知识的最佳方法。在过去的几年里,我学到的很多东西都是在我试图弄清楚如何教别人时获得的。一旦掌握了基础知识,学习新内容就相对容易了。教与学的过程多次重复后,会惊讶于自己学会了很多,比如学会了用于谷歌搜索的很多术语,并能解读 页面的解答。很多高手也在搜索他人提出的问题。无论这是你学习的第几种编程语言,希望本书都能为你提供一个坚实的基础,为你搭建一座通往其他数据分析语言的桥梁。我的数据科学教学生涯始于年第一次参加研讨班。此后,就一直在从事这方面的教学工作。年,我有幸成为现为 教育集团的一名实习生。那时,数据科学教育方兴未艾。实习结束之后,我想将教学与医学的结合作为我的博士学位论文选题。幸运的是,我认识学校的一位图书管理员 ,她把我介绍给了
,也对健康科学中的数据科学教学很感兴趣。之后的故事大家都知道了。成为了我的博士生导师,我和指导委员会的其他成员,包括 、 和 ,一起研究医学和生物医学领域中的数据科学教育。本书第版为我的学位论文研讨班要讲授哪些数据科学的相关内容奠定了基础。本书第版纳入了我在学习和研究教育和教学法时学到的许多内容。
简而言之,一定要交个图书管理员做朋友,他的工作与数据之间联系紧密。
年,我甚至对“数据科学”这个词闻所未闻。当时我还在攻读流行病学的学位,对于本科专业背景为心理学和神经科学的我来说,检验、方差分析以及线性回归之外的各种统计学方法深深吸引了我。也正是在年秋天,我第一次参加了研讨班,并担任了项目的定量方法 课程该课程是第一学期流行病学和生物统计学的一门综合课的助教,并第一次开始授课。自此,我便一直在从事数据科学领域的教学工作。
当年,我学习的第一门“数据科学导论”课程由 博士、 博士和 三位老师讲授,回顾多年来走过的路程,感触良多。三位老师打开了我的眼界。对我来说,之前那些貌似不可思议的事情都变得稀松平常,没有做不到的,只有想不到的尽管“能做到的”不一定是“最好的”。数据科学的技术细节——编码方面——是由用语言讲授的。
当年,我一直想学语言,和语言之争从未动摇过我的决心。一方面,我认为只是一种编程语言; 另一方面,我并不知道有大量的分析工具从那时起我已经学会了很多工具,并取得了长足的进步。在了解了堆栈和后,我认为它们就像桥梁一样连通了我学到的知识,以及我在流行病学研究和数据科学的学习中获得的知识。当精通语言后,我发现其与有很多相似之处。我也意识到很多数据清理任务以及常规的编程任务都涉及思考如何得到所需的东西,剩下的基本都是语法问题而已。在进行数据分析时,最重要的是设计好分析的步骤,不要被编程细节所困扰。我用过很多种编程语言,从来不纠结于哪种语言“更好”。话虽如此,本书面向的是数据分析领域的新手。
在过去的几年中,我认识了很多人,参加了很多活动,也学到了很多的技能,本书就是对这些年经验的总结。其中,我学到的比较重要的一件事情除了先要搞清楚问题到底是什么,以便用谷歌来搜索相关的 (问答网站,面向编程人员群体)页面之外是阅读文档非常必要。作为一个参与过协作课程并编写过库和软件包的人,我可以负责任地说,编写文档确实需要花费大量的时间和精力,这就是为什么整本书中不断引用相关文档页面的原因。有些函数有非常多的参数,应用的场景也不相同,一一介绍是不现实的。如果本书过于关注这些细节,那么书名要改成 了。当然,随着处理数据的增多、对各种数据结构越来越熟悉,你最终将会具备一定的预测能力。即使对之前从未见过的代码,也可以合理地推断出其执行结果。希望本书能为读者提供一个坚实的基础,助其自己进行探索,从而成为一个自学成才的学习者。

在撰写本书的过程中,我遇到了很多人,也从他们身上学到了很多东西,其中很多都是关于最佳实践的,比如编写向量化语句以替代循环语句、测试代码,以及组织项目目录结构等。从实际的教学过程中我也学到了很多关于教学的知识,以教促学确实是学习新知识的最佳方法。在过去的几年里,我学到的很多东西都是在我试图弄清楚如何教别人时获得的。一旦掌握了基础知识,学习新内容就相对容易了。教与学的过程多次重复后,会惊讶于自己学会了很多,比如学会了用于谷歌搜索的很多术语,并能解读 页面的解答。很多高手也在搜索他人提出的问题。无论这是你学习的第几种编程语言,希望本书都能为你提供一个坚实的基础,为你搭建一座通往其他数据分析语言的桥梁。
本书结构
本书共分为五部分,还包括一系列的附录。
第一部分
该部分基于真实的数据集介绍基础知识。
第章首先介绍如何使用加载数据集,并查看数据的行和列,还大致讲解和的语法,最后给出若干具有启发性的示例,展示的用途。
第章深入探讨的和对象,还介绍布尔子集、删除值以及导入和导出数据的不同方式。
第章主要介绍使用、和的绘图方法以及如何创建探索性数据分析的绘图。
第章讨论 的论文《整洁数据》 ,该论文涉及常见的数据重塑和清理问题。
第章侧重于介绍对数据应用函数的内容,这是一项重要的技能,涵盖了许多编程主题。当需要扩展数据操作的规模时,了解的工作原理将有助于编写并行和分布式代码。
第二部分
该部分重点介绍加载数据后如何进一步处理数据。
第章侧重于数据集的合并,即要么将它们连接在一起,要么合并不同的数据。
第章介绍规范化数据以更稳健地存储数据。
第章介绍操作即拆分应用组合。这些强大的概念,如,通常是扩展数据所必需的,也是高效聚合、转换或过滤数据的好方法。
第三部分
该部分涵盖存储在列中的数据类型。
第章介绍数据缺失会引发的问题、如何创建数据以填充缺失数据,以及如何处理缺失数据,特别是当对这些数据进行计算时可能会出现的问题。
第章介绍数据类型,以及如何在列中转换类型。
第章介绍字符串操作,这是数据清理任务中经常遇到的问题,因为数据通常被编码为文本。
第章探讨强大的日期和时间功能。
第四部分
在数据全部清洗完毕并准备就绪后,下一步就是拟合模型。模型不仅可用于预测、聚类和推断,还可用于探索性的目的。该部分的目标不是讲授统计学这方面的书已经很多了,而是想展示这些模型的拟合方法,以及它们是如何与交互的。该部分内容对于使用其他编程语言进行模型拟合也颇具借鉴意义。
第章的线性模型是一种较简单的拟合模型。本章介绍如何使用库和库来拟合这些模型。
第章的广义线性模型,顾名思义,是更广义上的一种线性模型。通过该模型我们可以用不同的响应变量来拟合模型,例如二元数据或计数数据。
第章介绍生存模型,当出现数据删失时需要用到它。
第章,在拟合好核心模型之后需要进行模型诊断,对多个模型进行比较,并选出“最佳”模型。
第章,当拟合的模型过于复杂或出现过拟合时,就要用到正则化技术。
第章,当不知道数据中隐含的真实答案时可以使用聚类技术,但需要一种方法将“相似”的数据点聚类或进行分组。
第五部分
本书最后部分主要介绍的生态系统,并提供了一些额外的参考资料。
第章简单介绍的计算堆栈,并开启了代码性能和扩展的学习之路。
第章提供一些额外的链接和参考资料。
附录
可以将附录视为编程的入门教程。虽然它们并不是的完整介绍,但各个附录确实是对本书某些主题的有益补充。
附录为介绍性章节,提供了概念图,以帮助分解概念并将其相互关联。
附录~附录涵盖与运行代码相关的所有任务,从安装到使用命令行执行脚本,再到组织代码,还包括创建环境和安装库。
附录~附录涵盖与和相关的编程概念,是本书主要的补充参考。
附录复制了中的一些建模代码,作为比较类似结果的参考。
如何阅读本书
无论是新手还是经验丰富的程序员,都建议从头至尾阅读整本书。拟将本书用作教材的读者会发现,本书的章节安排很适合研讨班或课堂教学。
对于初学者
对于初学者来说,建议先浏览附录~附录,因为这些附录中讲解了如何安装并使其正常工作。完成这些步骤后,读者就可以学习本书的主要内容了。前几章在必要时均引用了相关附录,并在开头给出了概念图和学习目标,有助于读者了解该章要介绍的主要内容,同时指出了需提前阅读的相关附录。
对于经验丰富的程序员
对于经验丰富的程序员来说,前两章的内容足以入门并掌握的语法,可以将本书其余的部分作为参考。前几章开头部分的学习目标指出了本章涵盖的主题。第一部分中关于“整洁数据”的章节和第三部分的章节对数据操作特别有帮助。
对于培训讲师
对于培训讲师来说,若将本书用作教学参考可按书中顺序来讲授每一章。每章的教学时长约为~分钟。本书在结构安排上尽量使各章不引用后续章节的内容,从而最大限度地减少学生的学担——但可以根据实际需要灵活调整章节的顺序。
附录中的概念图和前几章中列出的学习目标有助于了解概念之间的关系。
设置
每个人的计算机设置都会有所不同,因此,要想获得有关设置环境的最新说明可以访问本书在的页面,或者参考附录以获取有关如何在计算机上安装的信息。
获取数据
获取本书所有数据和代码的最简单方法是扫描下方二维码。有关如何下载本书数据的最新说明可以在本书的存储库中找到,存储库及有关如何获得本书的更详细说明参见附录。
安装
附录和附录分别给出了环境和安装软件包,可以从中找到如何设置的 统一资源定位系统和命令,以便编写代码。同样,本书的存储库中始终包含最新的说明。

全书代码

显示全部信息

目 录
第一部分引言
第二部分数据处理
第三部分数据类型
第四部分数据建模
第五部分附录
附录概念图
附录安装和设置
安装

卸载或

安装包
下载本书数据第一部分引言
第章 基础知识
引言
加载第一个数据集
查看列、行和单元格
根据列名选择列并进行子集化
对行进行子集化
根据行号子集化行
混合
子集化行和列
分组和聚合计算
分组方式
分组频率计数
基本绘图
本章小结
第章的数据结构
创建数据
创建
创建

类似于的
布尔型子集
自动对齐并向量化广播

的组成
布尔子集化
自动对齐和向量化广播
更改和
添加列
直接更改列
使用方法修改列
删除值
导出和导入数据

逗号分隔值

文件格式

对象表示法
其他数据的输出类型
本章小结
第章绘图入门
为什么要将数据可视化
基础
图对象和坐标轴子图
图形剖析
使用绘制统计图
单变量数据
双变量数据
多变量数据

单变量数据
双变量数据
多变量数据
分面
的样式和主题
如何浏览文档
下一代接口
绘图方法
直方图
密度图
散点图
蜂巢图
箱线图
本章小结
第章整洁数据
包含值而非变量的列
固定一列
固定多列
包含多个变量的列
单独拆分和添加列
在单个步骤中进行拆分和组合
行与列中的变量
本章小结
第章函数的应用
函数入门
函数应用基础
的方法
的方法
向量化函数
使用
使用库
函数
本章小结

第二部分数据处理
第章数据组合
组合数据集
连接
查看的组成
添加行
添加列
不同索引下的连接操作
跨多张表的观测单元
使用循环加载多个文件
使用列表解析加载多个文件
合并多个数据集
一对一合并
多对一合并
多对多合并
使用语句进行检查
本章小结
第章数据规范化
一张表中的多个观测单元
数据规范化过程
本章小结
第章分组操作分割应用组合
聚合
基本的单变量分组聚合
内置的聚合方法
聚合函数
同时传入多个函数
在方法中使用
转换
示例
缺失值示例
过滤器
对象
分组
涉及多个变量的分组计算
选择分组
遍历分组
多个分组
平铺结果
使用多级索引
本章小结

第三部分数据类型
第章缺失数据
何为值
缺失值从何而来
加载数据
合并数据
用户输入值
重建索引
处理缺失数据
查找和统计缺失数据
清理缺失数据
缺失值计算
内置的缺失值
本章小结
第章数据类型
常见的数据类型
类型转换
转换为字符串对象
转换为数值类型
分类数据
转换为类型
操作分类数据
本章小结
第章字符串和文本数据
字符串
子集化和字符串切片
获取字符串的最后一个字符
字符串方法
更多字符串方法
方法
方法
字符串格式化
格式化的文字字符串
格式化数字
正则表达式
匹配模式
记住模式
查找模式
替换模式
编译模式

本章小结
第章日期和时间
的对象
转换为
加载包含日期的数据
提取日期的各个部分
日期运算和
方法
获取股票数据
基于日期子集化数据
对象
对象
日期范围
频率
偏移量
日期变动
重新采样
时区

本章小结

第四部分数据建模
第章线性回归
简单线性回归
使用库
使用库
多元回归
使用库
使用库
包含分类变量的模型
中的分类变量
中的分类变量
带 的中的编码
本章小结
第章广义线性模型
逻辑回归
使用库
使用库
注意默认值
泊松回归
使用
负二项回归
更多的
本章小结
第章生存分析
生存数据
曲线
比例风险模型
本章小结
第章模型诊断
比较单个模型
残差
图
比较多个模型
比较线性模型
比较模型
交叉验证
本章小结
第章正则化
为什么要正则化
回归
岭回归
弹性网
交叉验证
本章小结
第章聚类
均值聚类
层次聚类
聚类算法
聚类算法
聚类算法
聚类算法
聚类算法
手动设置阈值
本章小结

第五部分附录
附录概念图
附录安装和设置
安装

卸载或

安装包
下载本书数据
附录命令行
安装
系统

系统
基础
附录项目模板
附录代码编写工具
命令行和文本编辑器


集成开发环境
附录工作目录
附录环境
环境

附录安装程序包
使用安装库
更新程序包
附录导入库
附录代码风格
附录容器列表、元组和
列表
元组

附录切片值
附录循环
附录推导式
附录函数
默认参数
任意参数

附录范围和生成器
附录多重赋值
附录
附录类
附录设置
修改数据子集
替换值
更多的资源
附录方法链
附录计时代码
附录字符串格式化
语言风格
字符串格式化方法
格式化数字
附录条件语句
附录纽约逻辑回归示例
准备数据
使用库
附录复制语言中的结果
线性回归
逻辑回归
泊松回归

显示全部信息