Python数据分析基础技术之pandas（史上最全面）

文章正文

发布时间：2024-08-22 06:03

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。简单地说，你可以把 Pandas 看作是 Python 版的 Excel。

pandas官网可以供查阅API和更多教程

pandas具有以下数据结构：

Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型，字符串、boolean值、数字等都能保存在Series中。

Time- Series：以时间为索引的Series。

DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。

Panel（最近的版本已经弃用这个数据结构，所以不做介绍）：三维的数组，可以理解为DataFrame的容器。

我们本文就来一起总结学习pandas常用数据结构和操作

1 数据结构以及操作——Series

Series 是一种一维数组，和 NumPy 里的数组很相似。事实上，Series 基本上就是基于 NumPy 的数组对象来的。和 NumPy 的数组不同，Pandas 的 Series 能存放各种不同类型的对象，Series 能为数据自定义标签，也就是索引（index），然后通过索引来访问数组中的数据。

导入模块：

import numpy as np import pandas as pd

创建一个 Series 的基本语法如下：

s = pd.Series(data,index) 参数意义
data 字典、ndarray或标量值（标量就是只有大小，没有方向的量）
index 对 data 的索引值，类似字典的 key， index 参数是可省略的，你可以选择不输入这个参数。如果不带 index 参数，Pandas 会自动用默认 index 进行索引，比如ndarray数组，索引值是 [0, …, len(data) - 1]

创建分为以下4种情况：

从python list创建Series

在这里插入图片描述

从numpy ndarray创建Series

在这里插入图片描述

从python dict创建Series

在这里插入图片描述

当data为dict，且没有传递索引时，Series如果使用Python版本>=3.6和Pandas 版本>=0.23，则索引将按dict的插入顺序排序。如下图：

在这里插入图片描述

在上图中，如果您的Python版本低于3.6，或者Pandas版本低于0.23，则Series将由词条键的词法顺序(即[‘a’, ‘b’, ‘c’]而不是[‘b’, ‘a’, ‘c’]).

在这里插入图片描述

注意：NaN(不是数字)是pandas使用的标准缺失数据标记。

从标量创建Series

如果数据是标量值，则必须提供索引。将重复该值以匹配索引的长度。

在这里插入图片描述

从 Series 里获取数据：

访问 Series 里的数据的方式，和 Python 字典基本一样：

在这里插入图片描述

对 Series 进行算术运算操作

基于 index 进行的。我们可以用加减乘除（+ - * /）这样的运算符对两个 Series 进行运算，Pandas 将会根据索引 index，对响应的数据进行计算，结果将会以浮点数的形式存储，以避免丢失精度。如果 Pandas 在两个 Series 里找不到相同的 index，对应的位置就返回一个空值 NaN。如下图：

在这里插入图片描述

2 数据结构以及操作——DataFrame

DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。
DataFrame是一个二维标记的数据结构，可以具有不同类型的列。您可以将其视为电子表格或SQL表，或序列对象的dict。它通常是最常用的pandas对象。与系列一样，DataFrame接受多种不同类型的输入：

1、一维ndarray的dict，lists， dicts, or Series 2、二维numpy.ndarray 3、结构化或记录 ndarray 4、A Series 5、Another DataFrame

创建方式：

1、用许多 Series 来构建一个DataFrame：

在这里插入图片描述

2、用一个字典来创建 DataFrame：

在这里插入图片描述

获取，设置和删除列的工作方式与类似的dict操作相同：

在这里插入图片描述

只获取一列，所以返回的就是一个 Series，包括index。可以用 type() 函数确认返回值的类型：

在这里插入图片描述

如果获取多个列，那返回的就是一个 DataFrame 类型：

在这里插入图片描述

向 DataFrame 里增加数据列——创建一个列的时候，你需要先定义好这个列的数据和索引。

比如下图这个 DataFrame：

在这里插入图片描述

增加数据列有以下两种办法：
——可以从头开始定义一个 pd.Series，再把它放到表中：

在这里插入图片描述

——也可以利用现有的列来产生需要的新列。

在这里插入图片描述

从 DataFrame 里删除行/列：

想要删除某一行或一列，可以用 drop() 函数。在使用这个函数的时候，你需要先指定具体的删除方向，axis=0 对应的是行 row，而 axis=1 对应的是列 column 。
删除 ‘Birth_year’ 列/“d”行：

在这里插入图片描述

注意，除非用户明确指定，为了防止用户误操作丢失数据，在调用 drop() 的时候，Pandas 并不会真的永久性地删除这行/列。可以通过调用 df 来确认数据的完整性（df就可以显示未永久删除的）。如果你确定要永久性删除某一行/列，你需要加上 inplace=True 参数，比如：

在这里插入图片描述

获取 DataFrame 中的一行或多行数据：

要获取某一行，loc[] 来按索引（或标签名）引用，或者用iloc[]，按这行在表中的位置（行数（以0开始））来引用。如下：
一行：

在这里插入图片描述

多行：

在这里插入图片描述

同时你可以用 loc[] 来指定具体的行列范围，并生成一个子数据表。比如，提取 ‘b’ 行中 'Name’ 列的内容（提取“b”,“c”行中的name,Year列的内容），可以如下操作：

在这里插入图片描述

条件筛选

用中括号 [] 的方式，除了直接指定选中某些列外，还能接收一个条件语句，然后筛选出符合条件的行/列。
randn(d1,d2,…，dn)函数是生成正态分布的随机数，n是维数，下图即二维，5行4列
创建DataFrame（data,index,属性）

在这里插入图片描述

上图的结果即下图的前两个表达式

在这里插入图片描述

也可以使用逻辑运算符 &（与）和 |（或）来链接多个条件语句，以便一次应用多个筛选条件到当前的 DataFrame 上。比如，我们可以用下面的方法筛选出同时满足 ‘W’>0 和’X’>1 的行，结果如下图：

在这里插入图片描述

重置并设置DataFrame 的索引

——若你觉得当前 DataFrame 的索引有问题，可以先用 .reset_index() 简单地把整个表的索引都重置掉。
这个方法将把目标 DataFrame 的索引保存在一个叫 index 的列中，而把表格的索引变成默认的从零开始的数字，也就是 [0, …, len(data) - 1] 。比如下面这样：

在这里插入图片描述

和删除操作差不多，.reset_index() 并不会永久改变你表格的索引，除非你调用的时候明确传入了 inplace 参数，比如：.reset_index(inplace=True)

——然后用 .set_index() 方法，将 DataFrame 里的某一列作为索引来用。比如，我们在这个表里新建一个名为 “ID” 的列：

在这里插入图片描述

注意，不像 .reset_index() 会保留一个备份，然后才用默认的索引值代替原索引，.set_index() 将会完全覆盖原来的索引值。

在这里插入图片描述

多级索引（MultiIndex）以及命名索引的不同等级

多级索引其实就是一个由元组（Tuple）组成的列表，每一个元组都是独一无二的。
——你可以从一个包含许多数组的列表中创建多级索引（调用 MultiIndex.from_arrays ），
——也可以用一个包含许多元组的列表（调用 MultiIndex.from_tuples ）
——或者是用一对可迭代对象的集合（比如两个列表，互相两两配对）来构建（调用MultiIndex.from_product ）。

我们从元组中创建多级索引：

在这里插入图片描述

在 Python 3.x 中为了减少内存，zip() 返回的是一个对象。如需展示列表，需手动 list() 转换。zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。

如果各个迭代器的元素个数不一致，则返回列表长度与最短的对象相同，利用 * 号操作符，可以将元组解压为列表。
最后这个 list(zip()) 的嵌套函数，把上面两个列表合并成了一个每个元素都是元组的列表。这时 my_index 的内容是这样的：[(‘O Level’, 21), (‘O Level’, 22), (‘O Level’, 23), (‘A Level’, 21), (‘A Level’, 22), (‘A Level’, 23)]
接下来，我们调用 .MultiIndex.from_tuples(my_index) 生成一个多级索引对象，：

在这里插入图片描述

最后，将这个多级索引对象转成一个 DataFrame：

在这里插入图片描述

要获取多级索引中的数据，还是用到 .loc[] 。比如，先获取 ‘O Level’ 下的数据：

在这里插入图片描述

然后再用一次 .loc[]，获取下一层 21 里的数据：

在这里插入图片描述

如上所示，df 这个 DataFrame 的头两个索引列没有名字，鉴于需要，我们可以用 .index.names 给它们加上名字：

在这里插入图片描述

我们可以用 .xs() 方法轻松获取到多级索引中某些特定级别的数据。比如，我们需要找到所有 Levels 中，Num = 22 的行：

在这里插入图片描述

缺失值的处理：

在许多情况下，如果你用 Pandas 来读取大量数据，往往会发现原始数据中会存在不完整的地方。在 DataFrame 中缺少数据的位置， Pandas 会自动填入一个空值，比如以下这个图中的NaN 。

在这里插入图片描述

缺失值的删除：.dropna() 来丢弃这些自动填充的值，当你使用 .dropna() 方法时，就是告诉 Pandas 删除掉存在一个或多个空值的行（或者列）。删除行用的是 .dropna(axis=0) ，删除列用的是 .dropna(axis=1) ，默认axis = 0。

在这里插入图片描述

缺失值的填充：.fillna() 来自动给这些空值填充数据，使用 .fillna() 方法，Pandas 将对这个 DataFrame 里所有的空值位置填上你指定的默认值。比如，将表中所有 NaN 替换成 20 ：

在这里插入图片描述

同样地，.dropna()方法和 .fillna() 方法并不会永久性改变你的数据，除非你传入了inplace=True 参数。‘
’
分组统计

Pandas 的分组统计功能可以按某一列的内容对数据行进行分组，并对其应用统计函数，比如求和，平均数，中位数，标准差等
首先初始化一个Dataframe，如下图，

在这里插入图片描述

用 .groupby() 方法，我们可以对下面这数据表按 ‘Company’ 列进行分组，并用 .mean() 求每组的平均值：

在这里插入图片描述

用 .count() 方法，能对 DataFrame 中的某个元素出现的次数进行计数，如下

数据描述

.describe() 方法将对 DataFrame 里的数据进行分析，并一次性生成多个描述性的统计指标，方便用户对数据有一个直观上的认识。生成的指标，从左到右分别是：计数、平均数、标准差、最小值、25% 50% 75% 位置的值、最大值：

在这里插入图片描述

然后用 .transpose() 方法获得一个竖排的格式：

在这里插入图片描述

使用[]，可以只看指定的指标：

在这里插入图片描述

堆叠（Concat）

堆叠基本上就是简单地把多个 DataFrame 堆在一起，拼成一个更大的 DataFrame。当你进行堆叠的时候，堆叠时要注意数据表的索引和列的延伸方向，堆叠的方向要和它一致。
默认按行的方向堆叠，把每个表的索引按顺序叠加。

在这里插入图片描述

按列的方向堆叠，那你需要传入 axis=1 参数：

在这里插入图片描述

由上图可知出现了一大堆空值。因为我们用来堆叠的3个 DataFrame 里，有许多索引是没有对应数据的。因此使用 pd.concat() 的时候，一定要注意堆叠方向的坐标轴（行或列）含有所需的所有数据。

归并（Merge）

使用 pd.merge() 函数，能将多个 DataFrame 归并在一起，它的合并方式类似合并 SQL 数据表的方式。
归并操作的基本语法：

pd.merge(left, right, how='inner', on='Key') 其中 left 参数代表放在左侧的 DataFrame，而 right 参数代表放在右边的 DataFrame； how='inner' 指的是当左右两个 DataFrame 中存在不重合的 Key 时，取结果的方式：默认：inner 内连接，取交集”，outer 外连接，取并集，并用nan填充”，left 左连接，左侧取全部，右侧取部分”，right 右连接，左侧取部分，右侧取全部” 最后，on='Key' 代表需要合并的键值所在的列，最后整个表格会以该列为准进行归并。

对于两个都含有 key 列的 DataFrame，我们可以这样归并：

在这里插入图片描述

也可以传入多个 on 参数，这样就能按多个键值进行归并：

在这里插入图片描述

连接（Join）

若要把两个表连在一起，然而它们之间没有太多共同的列，可以选择使用.join() 方法。和 .merge() 不同，连接采用索引作为公共的键，而不是某一列。

在这里插入图片描述

同样inner 表示内连接，取交集”，outer 外连接，取并集，并用nan填充”，left 左连接，左侧取全部，右侧取部分”，right 右连接，左侧取部分，右侧取全部”

查找不重复的值

不重复值在Dataframe中被视为独一无二的，找到不重复的值，在数据分析中有助于避免样本偏差。在 Pandas 里，主要用到 3 种相关的API方法：
—— .unique() 方法。比如在下面这个 DataFrame 里，查找 col2 列中所有不重复的值：

在这里插入图片描述

.nunique() 方法，获取所有不重复值的个数：

在这里插入图片描述

.value_counts() 同时获得所有值和对应值的计数：

在这里插入图片描述

apply() 方法

.apply() 方法，可以对 DataFrame 中的数据应用自定义函数，进行数据处理。
比如，我们先定义一个 square() 函数，然后对表中的 col1 列应用这个函数：

在这里插入图片描述

函数会被应用到这一列里的每一个元素上。这样，我们就也可以调用任意的内置函数。比如对 col3 列取长度 len ：

在这里插入图片描述

用 lambda 表达式（匿名函数）来代替函数定义，简化代码。比如，我们可以用这样的 lambda 表达式代替上面 In[47] 里的函数定义：

在这里插入图片描述

获取 DataFrame 的属性

DataFrame 的属性包括列和索引的名字。假如你不确定表中的某个列名是否含有空格之类的字符，你可以通过 .columns 来获取属性值，以查看具体的列名。

在这里插入图片描述

排序（sort）

.sort_values() 将整个表按某一列的值进行排序：

在这里插入图片描述

注意：表格变成按 col2 列的值从小到大排序。要注意的是，表格的索引 index 还是对应着排序前的行，并没有因为排序而丢失原来的索引数据。

查找空值

数据集很庞大时，使用用 Pandas 的 .isnull() 方法，方便快捷地发现表中的空值：

在这里插入图片描述

该方法返回的是一个新的 DataFrame，里面用布尔值（True/False）表示原 DataFrame 中对应位置的数据是否是空值。

数据透视表

使用 Excel 的时候，有数据透视表的功能，同样，pandas也有。数据透视表是一种汇总统计表，它展现了原表格中数据的汇总统计结果。Pandas 的数据透视表能自动帮你对数据进行分组、切片、筛选、排序、计数、求和或取平均值，并将结果直观地显示出来。

举个李子，这里有个关于动物的统计表：

在这里插入图片描述

Pandas 数据透视表的语法是：

df .pivot_table(data, values='', index=[''], columns=['']) #values代表我们需要汇总统计的数据所在的列 #index 表示按该列进行分组索引 #columns 则表示最后结果将按该列的数据进行分列

还可以在 Pandas 的官方文档中找到更多数据透视表的详细用法和例子。

下面，我们就来给这个动物统计表创建一个数据透视表：

——可以直接用上述语法（data就是源Dataframe）：

在这里插入图片描述

——也可以直接将data作为对象调用该方法：

在这里插入图片描述

注意：若原数据里没有对应的条件下的数据，数据透视表的该位置就是是 NaN 空值。

导入导出数据（文件操作）

pd.read_ 这样的方法，你可以用 Pandas 读取各种不同格式的数据文件，包括 Excel 表格、CSV 文件、SQL 数据库，甚至 HTML 文件等。

——读取 CSV 文件：
pd.read_csv() 就能将 CSV 文件里的数据转换成 DataFrame 对象：

在这里插入图片描述

——写入 CSV 文件：
DataFrame 对象存入 .csv 文件的方法是 .to_csv()，例如，我们先创建一个 DataFrame 对象，然后我们将这个 DataFrame 对象存成 ‘New_dataframe’ 文件，Pandas 会自动在磁盘上创建这个文件：

在这里插入图片描述

上图中传入 index=False 参数是因为不希望 Pandas 把索引列的 0~5 也存到文件中。

——读取 Excel 表格文件：
Excel 文件是一个不错的数据来源。使用 pd.read_excel() 方法，我们能将 Excel 表格中的数据导入 Pandas 中。但是请注意，Pandas 只能导入表格文件中的数据，其他对象，例如宏、图形和公式等都不会被导入。如果文件中存在有此类对象，可能会导致 pd.read_excel() 方法执行失败：

在这里插入图片描述

注意：每个 Excel 表格文件有可能含有一个或多个工作表，传入 sheet_name=‘Sheet1’ 这样的参数，就表示只读取 ‘excel_output.xlsx’ 中的 Sheet1 工作表中的内容。

——写入 Excel 表格文件：
与写入 CSV 文件类似，我们可以将一个 DataFrame 对象存成 .xlsx 文件，语法是 .to_excel() ，我们数据存到 ‘excel_output.xlsx’ 文件中：

在这里插入图片描述

——读取 HTML 文件中的数据：
为了读取 HTML 文件，首先需要安装 htmllib5，lxml 以及 BeautifulSoup4 库

我们来举个栗子，我们使用Pandas 读取这个页面的数据：由于一个页面上含有多个不同的表格，我们需要通过下标 [0, …, len(tables) - 1] 访问表格列表中的不同元素。

下面的这个例子，我们显示的是该页面中的第 2 个表格：

在这里插入图片描述

3 数据结构以及操作——时间序列（Time- Series）

pandas.date_range(start=None, end=None, periods=None, freq=‘D’, tz=None, normalize=False, name=None,closed=None, **kwargs)
功能：返回一个固定的频率DatetimeIndex，以日（日历D）作为默认频率

参数：start : string or datetime-like, default None 生成日期的左边界

end : string or datetime-like, default None 生成日期的右边界

periods : integer, default None 要生成的时间段数

freq : string or DateOffset, default ‘D’ (日历日期) 频率字符串可以有多个，例如“S”表示秒频率

返回：rng ： DatetimeIndex

注意：在三个参数中：start，and和periods，必须指定两个参数。

举个例子，接下来的四个示例生成相同的DatetimeIndex，但会改变start，end和periods的组合。
——使用默认的每日频率指定开始和结束：

在这里插入图片描述

——指定开始和期间，期间数（天）：

在这里插入图片描述

——指定开始，结束和期间 ; 频率自动生成（线性间隔）：

在这里插入图片描述

——将频率（频率）更改为’M’（月末频率）：

在这里插入图片描述

———可以通过时间序列来绘图：

ts=pd.Series(np.random.randn(1000),index=pd.date_range("20170301",periods=1000)) ts=ts.cumsum() #cumsum 返回DataFrame或Series轴上的累积和。 from pylab import * #需要导入绘图模块 ts.plot() #绘图 show() #展示

如下图：

在这里插入图片描述

恭喜你到这里，pandas的常用知识你就已经认识差不多了，可以在此基础上好好调教 Pandas。知识学了还不够，接下来，你需要的也是更重要的就是练习，练习，练习（重要的事情说遍！！！）。

下篇文章我们来总结学习scikit-learn（数据挖掘与机器学习）