PyPackage01---Pandas02_汇总和频数统计-CFANZ编程社区

单变量频数统计&多变量分组统计中的相关方法～

1. count&unique&nunique

import pandas as

test_data = pd.DataFrame({
    'x1': ["a", "b", "c", "b"],
    "x2": [1, 2, 3, 4],
    "x3": [4, 3, 2, 1]
})

## 统计个数
test_data.x1.count()

## 统计不重复的个数
test_data.x1.nunique()

## 得到不重复的值
## 返回结果是array
test_data.x1.unique()

array(['a', 'b', 'c'], dtype=object)

不同于列表，可以直接统计某个值出现的次数，DataFrame需要做一些转换。

list(test_data.x1).count('b')

sum(test_data.x1.apply(lambda x: 1 if x=='b' else 0))

test_data.x1.apply(lambda x: 1 if x=='b' else 0).sum()

groupby有一点奇葩，分组之后，label都变成索引(行名了)，可以设置as_index=False改变默认参数。
文档地址:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html

import pandas as

x = pd.DataFrame({
    "x1": ["a", "a", "b", "b", 'c'],
    "x2": [1, 1, 1, 2, 2],
    "x3": [1, 2, 3, 4, 5]
})

# 分组统计各个列的个数
x.groupby(by='x1').count()

x.groupby(by=['x1', 'x2'], as_index=False).count()

# 这里没有分各个列。
x.groupby(by='x1').size()

x1
a    2
b    2
c    1
dtype: int64

# 类似于sql：select x1,count(distinct x1),count(distinct x2),count(distinct x3) from table group by x1
x.groupby(by='x1').nunique()

x.groupby(by=["x1",'x2']).mean()

x.groupby(by=["x1",'x2']).sum()

x.groupby(by=["x1",'x2'], as_index=False).aggregate(sum)

x.groupby(by=["x1",'x2'], as_index=True).describe()

x.groupby(by=["x1",'x2'], as_index=False).describe()

2018-10-13 于南京市栖霞区紫东创业园