0
点赞
收藏
分享

微信扫一扫

Python Pandas基础操作

大南瓜鸭 2023-11-16 阅读 46

Pandas是一个重要的Python数据处理库。它提供了数据结构和数据分析工具,使得数据清洗、分析和可视化变得更加容易。在本文中,我们将列举一些常用的Pandas基础操作。

读取数据

Pandas提供了多种方法来读取不同格式的数据。其中最常用的是read_csv()read_excel()函数。使用这些函数可以轻松地将数据加载到Pandas DataFrame中。

import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')

# 读取excel文件
df = pd.read_excel('data.xlsx')

查看数据

读取数据后,我们需要查看数据来了解数据的结构和内容。Pandas提供了多个方法来查看数据,包括:

head(): 查看前几行数据,默认前5行。

tail(): 查看最后几行数据,默认最后5行。

info(): 查看数据的基本信息,如数据类型和缺失值情况。

describe(): 查看数据的统计信息,如均值、标准差、最小值和最大值等。

# 查看前5行数据
df.head()

# 查看后5行数据
df.tail()

# 查看数据基本信息
df.info()

# 查看数据统计信息
df.describe()

选择数据

在数据分析中,我们通常需要选择某些行和列进行分析。Pandas提供了多种方法来选择数据,包括:

  • 按列选择:使用[]运算符选择列。
  • 按行选择:使用loc[]iloc[]选择行。

# 按列选择
df['column_name']

# 按行选择
df.loc[row_index]
df.iloc[row_number]

数据清洗

在实际数据分析中,数据通常存在一些缺失值、异常值或者重复值。Pandas提供了多种方法来清洗数据,包括:

删除缺失值:使用dropna()函数删除缺失值。

替换缺失值:使用fillna()函数替换缺失值。

删除重复值:使用drop_duplicates()函数删除重复值。

处理异常值:使用条件语句或者统计方法来处理异常值。

# 删除缺失值
df.dropna()

# 替换缺失值
df.fillna(value)

# 删除重复值
df.drop_duplicates()

# 处理异常值
df[df['column_name'] > value]
df[(df['column_name'] > value) & (df['column_name'] < value)]

数据聚合

数据聚合是数据分析的重要步骤。Pandas提供了多种方法来聚合数据,包括:

  • 分组聚合:使用groupby()函数分组聚合数据。
  • 透视表聚合:使用pivot_table()函数创建透视表聚合数据。
  • 交叉表聚合:使用crosstab()函数创建交叉表聚合数据。

# 分组聚合
df.groupby('column_name').agg({'column_name': func})

# 透视表聚合
pd.pivot_table(df, values='column_name', index='row_name', columns='column_name', aggfunc=func)

# 交叉表聚合
pd.crosstab(df['column1'], df['column2'])

举报

相关推荐

0 条评论