mooc学习笔记–python数据分析与展示5
数据的排序
1、.sort_index(axis=0, ascending=True)
Series\DataFrame都可用
在指定轴上根据索引进行排序,默认升序(ascending=Frue是升序)
>>> import pandas as pd
>>> import numpy as np
>>> a = pd.DataFrame(np.arange(20).reshape(4, 5), index=['c', 'a', 'd', 'b'])
>>> a.sort_index()
0 1 2 3 4
a 5 6 7 8 9
b 15 16 17 18 19
c 0 1 2 3 4
d 10 11 12 13 14
>>> a.sort_index(axis=1, ascending=False)
4 3 2 1 0
c 4 3 2 1 0
a 9 8 7 6 5
d 14 13 12 11 10
b 19 18 17 16 15
2、.sort_values()
在指定轴上根据数值进行排序,默认升序
Series.sort_values(axis=0, ascending=True) | |
DataFrame.sort_values(by, axis=0, ascending=True) | by:axis轴上的某个索引或索引列表 |
注意NaN统一放到排序末尾,升序和降序都是放在末尾
数据的基本统计分析
适用于Series和DataFrame类型的基本统计分析函数 | |
.sum() | 计算数据的总和,按0轴计算,下同 |
.count() | 非NaN值的数量 |
.mean()、.median() | 计算数据的算术平均值、算术中位数 |
.var()、.std() | 计算数据的方差,标准差 |
.min()、.max() | 计算数据的最小值,最大值 |
.describe() | 针对0轴(各列)的统计汇总 |
只适用于Series类型的函数 | |
.argmin()、.argmax() | 计算数据最大值、最小值所在位置的索引位置(自动索引) |
.idxmin()、.idxmax() | 计算数据最大值、最小值所在位置的索引(自定义索引) |
数据的累计统计分析
适用于Series和DataFrame类型的累计统计分析函数 | |
.cumsum() | 依次给出前1、2…、n个数的和 |
.cumprod() | 依次给出前1、2…、n个数的积 |
.cummax() | 依次给出前1、2…、n个数的最大值 |
.cummin() | 依次给出前1、2…、n个数的最小值 |
.rolling(w).sum() | 依次计算相邻w个元素的和 |
.rolling(w).mean() | 依次计算相邻w个元素的算术平均值 |
.rolling(w).var() | 依次计算相邻w个元素的方差 |
.rolling(w).std() | 依次计算相邻w个元素的标准差 |
.rolling(w).min()\max() | 依次计算相邻w个元素的最大值和最小值 |
数据的相关分析
适用于Series和DataFrame类型的数据的相关分析函数 | |
.cov() | 计算协方差矩阵 |
.corr() | 计算相关系数矩阵 |
>>> import pandas as pd
>>> import numpy as np
>>> a = pd.Series(np.array([1,2,3,4,5]))
>>> b = pd.Series(np.array([2,5,6,8,9]))
>>> a.cov(b)
4.25
>>> a.corr(b)
0.9814954576223637