Python Pandas基础操作-CFANZ编程社区

Pandas是一个重要的Python数据处理库。它提供了数据结构和数据分析工具，使得数据清洗、分析和可视化变得更加容易。在本文中，我们将列举一些常用的Pandas基础操作。

读取数据

Pandas提供了多种方法来读取不同格式的数据。其中最常用的是read_csv()和read_excel()函数。使用这些函数可以轻松地将数据加载到Pandas DataFrame中。

import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')

# 读取excel文件
df = pd.read_excel('data.xlsx')

查看数据

读取数据后，我们需要查看数据来了解数据的结构和内容。Pandas提供了多个方法来查看数据，包括：

head(): 查看前几行数据，默认前5行。

tail(): 查看最后几行数据，默认最后5行。

info(): 查看数据的基本信息，如数据类型和缺失值情况。

describe(): 查看数据的统计信息，如均值、标准差、最小值和最大值等。

# 查看前5行数据
df.head()

# 查看后5行数据
df.tail()

# 查看数据基本信息
df.info()

# 查看数据统计信息
df.describe()

选择数据

在数据分析中，我们通常需要选择某些行和列进行分析。Pandas提供了多种方法来选择数据，包括：

按列选择：使用[]运算符选择列。
按行选择：使用loc[]和iloc[]选择行。

# 按列选择
df['column_name']

# 按行选择
df.loc[row_index]
df.iloc[row_number]

数据清洗

在实际数据分析中，数据通常存在一些缺失值、异常值或者重复值。Pandas提供了多种方法来清洗数据，包括：

删除缺失值：使用dropna()函数删除缺失值。

替换缺失值：使用fillna()函数替换缺失值。

删除重复值：使用drop_duplicates()函数删除重复值。

处理异常值：使用条件语句或者统计方法来处理异常值。

# 删除缺失值
df.dropna()

# 替换缺失值
df.fillna(value)

# 删除重复值
df.drop_duplicates()

# 处理异常值
df[df['column_name'] > value]
df[(df['column_name'] > value) & (df['column_name'] < value)]

数据聚合

数据聚合是数据分析的重要步骤。Pandas提供了多种方法来聚合数据，包括：

分组聚合：使用groupby()函数分组聚合数据。
透视表聚合：使用pivot_table()函数创建透视表聚合数据。
交叉表聚合：使用crosstab()函数创建交叉表聚合数据。

# 分组聚合
df.groupby('column_name').agg({'column_name': func})

# 透视表聚合
pd.pivot_table(df, values='column_name', index='row_name', columns='column_name', aggfunc=func)

# 交叉表聚合
pd.crosstab(df['column1'], df['column2'])