python pandas-CFANZ编程社区

mooc学习笔记–python数据分析与展示5

数据的排序
1、.sort_index(axis=0, ascending=True) Series\DataFrame都可用
在指定轴上根据索引进行排序，默认升序(ascending=Frue是升序)

>>> import pandas as pd
>>> import numpy as np
>>> a = pd.DataFrame(np.arange(20).reshape(4, 5), index=['c', 'a', 'd', 'b'])
>>> a.sort_index()
    0   1   2   3   4
a   5   6   7   8   9
b  15  16  17  18  19
c   0   1   2   3   4
d  10  11  12  13  14
>>> a.sort_index(axis=1, ascending=False)
    4   3   2   1   0
c   4   3   2   1   0
a   9   8   7   6   5
d  14  13  12  11  10
b  19  18  17  16  15

2、.sort_values()在指定轴上根据数值进行排序，默认升序


Series.sort_values(axis=0, ascending=True)
DataFrame.sort_values(by, axis=0, ascending=True)	by:axis轴上的某个索引或索引列表

注意NaN统一放到排序末尾,升序和降序都是放在末尾

数据的基本统计分析

适用于Series和DataFrame类型的基本统计分析函数
.sum()	计算数据的总和，按0轴计算，下同
.count()	非NaN值的数量
.mean()、.median()	计算数据的算术平均值、算术中位数
.var()、.std()	计算数据的方差，标准差
.min()、.max()	计算数据的最小值，最大值
.describe()	针对0轴(各列)的统计汇总

只适用于Series类型的函数
.argmin()、.argmax()	计算数据最大值、最小值所在位置的索引位置(自动索引)
.idxmin()、.idxmax()	计算数据最大值、最小值所在位置的索引(自定义索引)

数据的累计统计分析

适用于Series和DataFrame类型的累计统计分析函数
.cumsum()	依次给出前1、2…、n个数的和
.cumprod()	依次给出前1、2…、n个数的积
.cummax()	依次给出前1、2…、n个数的最大值
.cummin()	依次给出前1、2…、n个数的最小值

.rolling(w).sum()	依次计算相邻w个元素的和
.rolling(w).mean()	依次计算相邻w个元素的算术平均值
.rolling(w).var()	依次计算相邻w个元素的方差
.rolling(w).std()	依次计算相邻w个元素的标准差
.rolling(w).min()\max()	依次计算相邻w个元素的最大值和最小值

数据的相关分析

适用于Series和DataFrame类型的数据的相关分析函数
.cov()	计算协方差矩阵
.corr()	计算相关系数矩阵

>>> import pandas as pd
>>> import numpy as np
>>> a = pd.Series(np.array([1,2,3,4,5]))
>>> b = pd.Series(np.array([2,5,6,8,9]))
>>> a.cov(b)
4.25
>>> a.corr(b)
0.9814954576223637