Pandas数据特征分析

 
series类型:
 
 
 
 
 
DataFrame类型:

 
重新索引:

.reindex(index=None,columns=None,...)的参数

 
 
Pandas库的数据类型运算

 自动补齐,缺项补NaN
 
 fill_value参数替代NaN,替代后参与运算
 不同维度间为广播运算,一维Series默认在轴1参与运算
使用运算方法可以令一维Series参与轴0运算
 
 
 同维度运算,尺寸一致
不同维度,广播运算,默认在1轴
 数据的排序
 
将一组数据通过摘要(有损地提取数据特征的过程)的方式,可以获得基本统计(含排序)、分布/累计统计、数据特征(相关性、周期性等)、数据挖掘(形成知识)。

 
- .sort_values()方法在指定轴上根据数值进行排序,默认升序
 -  
Series.sort_values(axis=0, ascending=True) DataFrame.sort_values(by, axis=0, ascending=True) # by:axis轴上的某个索引或索引列表 

数据的基本统计分析


 
数据的累计统计分析
 

数据的相关分析
两个事物,表示为X和Y,如何判断它们之间的存在相关性?
- X增大,Y增大,两个变量正相关
 - X增大,Y减小,两个变量负相关
 - X增大,Y无视,两个变量不相关
 
协方差

- 协方差>0, X和Y正相关
 - 协方差<0, X和Y负相关
 - 协方差=0, X和Y独立无关
 
Pearson相关系数

r取值范围[-1, 1]
- 0.8 - 1.0 极强相关
 - 0.6 - 0.8 强相关
 - 0.4 - 0.6 中等程度相关
 - 0.2 - 0.4 弱相关
 - 0.0 - 0.2 极弱相关或无相关
 

参考网址:数据分析与展示——Pandas数据特征分析 - Python学习者 - 博客园










