0
点赞
收藏
分享

微信扫一扫

Pandas的三种数据统计函数_5

莞尔小迷糊 2022-04-17 阅读 52
python
import pandas as pd
import numpy  as np

"""
1.汇总类统计
2.唯一去重和按值计算
3.相关系数和协方差
"""

path = './test.csv'
df = pd.read_csv(path)

#  去除温度的C符号,并转为整数
df.loc[:,'bwendu'] = df['bwendu'].astype(str).str.repalce('C','').astype('int32')
df.loc[:,'ywendu'] = df['ywendu'].astype(str).str.replace('C','').astype('int32')
# 1.汇总类统计
# 提取所有列的统计结果
value_1 = df.describe()

# 查看单个series的数据
value_2 = df['bwendu'].mean()

# 查看最高温
value_3 = df['bwendu'].max()

# 查看最低温
value_4 = df['bwendu'].min()


# 2.唯一性去重(一般不用于数值列,用于分类列,枚举列)
value_5 = df['bwendu'].unique()
# 按值计数
value_6 = df['bWendu'].value_counts()


# 3.相关系数矩阵
value_7 = df.corr()
# 协方差矩阵
value_8 = df.cov()
# 单独查看空气质量和最高温度的相关系数
value_9 = df['api'].corr(df['bwendu'])
# 单独查看空气质量和温差的相关系数
value_10 = df['api'].corr(df['bwendu']-df['ywendu'])


举报

相关推荐

0 条评论