第十四章 数据分析案例本书正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。展示的方法适用于其它数据集,也包括你的。本章包含了一些各种各样的案例数据集,可以用来练习。 案例数据集可以在Github仓库找到,...2023-09-25程技
第八章 数据规整:聚合、合并和重塑在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。 首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。在第14章,你可以看到这些工具的多种应...2023-09-25程技
附录A-NumPy高级应用在这篇附录中,我会深入NumPy库的数组计算。这会包括ndarray更内部的细节,和更高级的数组操作和算法。 本章包括了一些杂乱的章节,不需要仔细研究。 A.1 ndarray对象的内部机理NumPy的ndarray提供了一种将同质数据块(可以是连续...2023-09-25程技
2 单链表 单链表是一种链式的数据结构,链表中的数据用结点表示,保持了数据之间的逻辑关系,但存储空间不一定是按照顺序存储。 链表的基本元素有: 节点:包括数据域和指针域,数据域存放数据,指针域存放指向下一个元素的指针 head:头结点 tail:尾结点 N...2023-09-25程技
第六章 数据加载、存储与文件格式访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。 输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。...2023-09-25程技
3 栈 栈是一种数据结构,只能从一端插入和删除操作,遵循着先进后出原则存储数据。 3.1 栈的初始化1234def __init__(self): self.stack = [] # 栈列表 self.size = 20 # 栈大小 ...2023-09-25程技
第七章 数据清洗和准备在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Ja...2023-09-25程技
1 顺序表突发奇想,想用Python把数据结构的知识再过一遍,所以就开始从顺序表从头来一遍,Python内置了一些功能,感觉只需要定义方法调用就好了,或者不想这么干的话,直接调用内置的方法咯。 list 是一种元素个数可变的线性表,采用了分离式技术实现的动态...2023-09-25程技
IPO审计笔记 1.0 货币资金01 闲扯两句写之前那先撤两句没用的… 首先那,不要把IPO妖魔化,虽然“一个项目从入职干到离职”的情况属实,而导致离职的本质原因,个人认为原因有三… 1.把审计干成了统计至少在项目经理之前,特别是在刚入职时很容易就把审计干成了统计…当然这种囧境对于...2023-09-22审技