第十四章 数据分析案例

本书正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。展示的方法适用于其它数据集,也包括你的。本章包含了一些各种各样的案例数据集,可以用来练习。 案例数据集可以在Github仓库找到,...

程技

第八章 数据规整:聚合、合并和重塑

在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。 首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。在第14章,你可以看到这些工具的多种应...

程技

附录A-NumPy高级应用

在这篇附录中,我会深入NumPy库的数组计算。这会包括ndarray更内部的细节,和更高级的数组操作和算法。 本章包括了一些杂乱的章节,不需要仔细研究。 A.1 ndarray对象的内部机理NumPy的ndarray提供了一种将同质数据块(可以是连续...

程技

2 单链表

单链表是一种链式的数据结构,链表中的数据用结点表示,保持了数据之间的逻辑关系,但存储空间不一定是按照顺序存储。 链表的基本元素有: 节点:包括数据域和指针域,数据域存放数据,指针域存放指向下一个元素的指针 head:头结点 tail:尾结点 N...

程技

第六章 数据加载、存储与文件格式

访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。 输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。...

程技

3 栈

栈是一种数据结构,只能从一端插入和删除操作,遵循着先进后出原则存储数据。 3.1 栈的初始化1234def __init__(self): self.stack = [] # 栈列表 self.size = 20 # 栈大小 ...

程技

第七章 数据清洗和准备

在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Ja...

程技

1 顺序表

突发奇想,想用Python把数据结构的知识再过一遍,所以就开始从顺序表从头来一遍,Python内置了一些功能,感觉只需要定义方法调用就好了,或者不想这么干的话,直接调用内置的方法咯。 list 是一种元素个数可变的线性表,采用了分离式技术实现的动态...

程技

MySQL常用函数

1、数学函数123456789101112131415161718ABS(x) --返回x的绝对值BIN(x) --返回x的二进制(OCT返回八进制,HEX返回十六进制)CEILING(x) --返回大于x的最...

程技

Pandas最常用的15个函数

Pandas是一个功能强大的数据处理库,它提供了大量的函数和方法,用于数据的读取、清洗、转换、分析和可视化。下面是Pandas中最常用的15个函数及其代码示例: read_csv():用于读取CSV文件中的数据并创建DataFrame对象。 12...

程技
14567820