一、如何使用列表创建⼀个DataFrame
# 导入pandas库
import pandas as pd
# 创建一个列表,其中包含数据
data = [['A', 1], ['B', 2], ['C', 3]]
# 使用pandas的DataFrame()函数将列表转换为DataFrame
df = pd.DataFrame(data, columns=['Letter', 'Number']) # 列名
# 显示创建的DataFrame
print(df)
Letter Number
0 A 1
1 B 2
2 C 3
二、如何使用Series 字典对象生成 DataFrame
# 导入pandas库
import pandas as pd
# 创建一个字典对象
data = {'Name': ['Tom', 'Nick', 'John'], 'Age': [20, 21, 19]}
# 使用pandas的DataFrame()函数将字典转换为DataFrame
df = pd.DataFrame(data)
# 显示创建的DataFrame
print(df)
Name Age
0 Tom 20
1 Nick 21
2 John 19
三、如何查看头部数据和尾部数据
分别是df.head()和df.tail() →默认返回前(后)5条数据。
四、如何快速查看数据的统计摘要
区别df.describe()
和df.info()
df.describe()
:默认情况下,它会为数值型列提供中心趋势、离散度和形状的统计描述,包括计数、均值、标准差、最小值、下四分位数(25%)、中位数(50%)、上四分位数(75%)以及最大值。此外,你可以通过传递参数来调整df.describe()
的行为,例如include
参数可以设置为'all'来包含所有列的统计信息,或者设置为'O'来仅包含对象列的统计信息。df.info()
:主要用于提供关于DataFrame的一般信息,如列索引、数据类型、非空值数量以及内存使用情况。它不会提供数值型数据的统计摘要,而是更多地关注于数据集的整体结构和数据类型。
五、pandas中的索引操作
如何重置索引 ?
Pandas Series.reset_index()函数的作⽤是:⽣成⼀个新的DataFrame或带有重置索引的Series。
六、pandas的运算操作
如何得到⼀个数列的最⼩值、第25百分位、中值、第75位和最⼤值?
import pandas as pd
import numpy as np
from numpy import percentile
p = pd.Series(np.random.normal(14, 6, 22))
state = np.random.RandomState(120)
p = pd.Series(state.normal(14, 6, 22))
print(percentile(p, q=[0, 25, 50, 75, 100]))
七、apply() 函数使用方法
如果需要将函数应⽤到DataFrame中的每个数据元素,可以使⽤ apply() 函数以便将函数应⽤于给定dataframe中的每⼀⾏。
import pandas as pd
def add(a, b, c):
return a + b + c
def main():
data = {
'A':[1, 2, 3],
'B':[4, 5, 6],
'C':[7, 8, 9] }
df = pd.DataFrame(data)
print("Original DataFrame:\n", df)
df['add'] = df.apply(lambda row : add(row['A'],
row['B'], row['C']), axis = 1)
Original DataFrame:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
A B C add
0 1 4 7 12
1 2 5 8 15
2 3 6 9 18
八、pandas的合并操作
如何将新⾏追加到pandas DataFrame?
Pandas dataframe.append()函数的作⽤是:将其他dataframe的⾏追加到给定的dataframe的末尾,返回⼀个新的dataframe对象。
import pandas as pd
# 使⽤dictionary创建第⼀个Dataframe
df1 =df =pd.DataFrame({"a":[1, 2, 3, 4],"b":[5, 6, 7, 8]})
# 使⽤dictionary创建第⼆个Dataframe
df2 =pd.DataFrame({"a":[1, 2, 3],"b":[5, 6, 7]})
# 现在将df2附加到df1的末尾
df1.append(df2)
第⼆个DataFrame的索引值保留在附加的DataFrame中,设置ignore_index = True可以避免这种情况。
九、分组(Grouping)聚合
“group by” 指的是涵盖下列⼀项或多项步骤的处理流程:
- 分割:按条件把数据分割成多组;
- 应⽤:为每组单独应⽤函数;
- 组合:将处理结果组合成⼀个数据结构。
十、数据透视表应用
透视表是⼀种可以对数据动态排布并且分类汇总的表格格式,在pandas中它被称作pivot_table。
透视表是一种强大的数据分析工具,它可以快速地对大量数据进行汇总、分析和呈现。
import pandas as pd
# 创建示例数据
data = {'日期': ['2022-01-01', '2022-01-01', '2022-01-02', '2022-01-02'],
'产品': ['A', 'B', 'A', 'B'],
'地区': ['北京', '上海', '北京', '上海'],
'销售额': [100, 200, 150, 250]}
df = pd.DataFrame(data)
# 使用pivot_table方法创建数据透视表
pivot_table = df.pivot_table(values='销售额', index='产品', columns='地区', aggfunc='sum')
print(pivot_table)
# 结果
地区 北京 上海
产品
A 100 150
B 200 250