python set_index-CFANZ编程社区

Python set_index：数据索引操作详解

引言

在数据处理和分析中，经常需要对数据进行索引操作，即按照某一列或多列的值进行数据的重新排序和分组。Python中的pandas库提供了丰富的数据操作方法，其中set_index()是一种常用的数据索引方法。本文将详细介绍set_index()的用法，并通过代码示例演示其具体应用。

什么是set_index()方法？

set_index()是pandas库中的一个函数，用于将DataFrame的一列或多列作为索引。它可以按照指定的列，将数据重新排序，并生成一个新的索引对象。

set_index()方法的语法和参数

set_index()方法的语法如下：

DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)

其中，各参数的含义如下：

keys: 用于设置索引的列或列的列表。可以是列名、列名的列表或多级索引。
drop: 默认为True，表示将用于设置索引的列从DataFrame中删除。
append: 默认为False，表示是否将新的索引添加到原有索引的末尾。
inplace: 默认为False，表示是否在原DataFrame上进行操作。
verify_integrity: 默认为False，表示是否检查新索引的唯一性。

set_index()方法的应用示例

首先，我们需要导入pandas库，并创建一个示例DataFrame来演示set_index()方法的使用。

import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John', 'Tom', 'John'],
        'Age': [20, 21, 22, 23, 24],
        'Score': [80, 85, 90, 75, 95]}

df = pd.DataFrame(data)
print(df)

运行以上代码，可以得到如下结果：

	Name	Age	Score
	Tom	20	80
1	Nick	21	85
2	John	22	90
3	Tom	23	75
4	John	24	95

1. 使用单列作为索引

如果我们想将"Name"列作为索引，可以使用set_index()方法：

df_with_index = df.set_index('Name')
print(df_with_index)

运行以上代码，可以得到如下结果：

	Age	Score
Name
Tom	20	80
Nick	21	85
John	22	90
Tom	23	75
John	24	95

从结果可以看出，"Name"列已经成为了索引，原DataFrame中的"Name"列被移除。

2. 使用多列作为索引

除了可以使用单列作为索引，还可以使用多列作为索引。在这种情况下，需要将多列名放入一个列表中传递给set_index()方法。

例如，我们将"Name"和"Age"两列作为索引：

df_with_multi_index = df.set_index(['Name', 'Age'])
print(df_with_multi_index)

运行以上代码，可以得到如下结果：

	Score
Name	Age
Tom	20
Nick	21
John	22
Tom	23
John	24

从结果可以看出，"Name"和"Age"两列已经成为了多级索引。

3. 设置索引时保留原有索引

默认情况下，set_index()方法会将新的索引替换原有索引。但是，我们可以通过设置参数append=True来保留原有索引。

例如，我们将"Name"列作为索引，并保留原有索引：

df_with_append_index = df.set_index('Name', append=True)
print(df_with_append_index)

运行以上代码，可以得到如下结果：

	Name	Age	Score