0
点赞
收藏
分享

微信扫一扫

筛选分类groupby('col1')下['col2']的重复值

# 筛选分类groupby('col1')下['col2']的重复值
df_test = pd.DataFrame(
    data=np.array([
        [1]*3 + [2]*3,
        np.repeat([1,2,3], 2)
    ]).T,
    columns=['col'+str(i) for i in range(1,3)]
)

# 方法1
df_test['计数'] = df_test['col2']
df_test.pivot_table(
    index=['col1', 'col2'],
    values=['计数'],
    aggfunc='count'
).query('计数>1')

# 方法2
# 筛选分类groupby('col1')下['col2']的重复值
df_test = pd.DataFrame(
    data=np.array([
        [1]*3 + [2]*3,
        np.repeat([1,2,3], 2)
    ]).T,
    columns=['col'+str(i) for i in range(1,3)]
)

# 对于SeriesGroupBy , apply与transform的区别
ser_bool_1 = df_test.groupby('col1', group_keys=True)['col2'].apply(lambda x: x.duplicated(keep=False))
ser_bool_2 = df_test.groupby('col1')['col2'].transform(lambda x: x.duplicated(keep=False))

# 根据ser_bool筛选df_test
df_test[ser_bool_2]  # 简单正确,或df_test.loc[ser_bool_2]

# ser_bool_1先转为ser_bool_2的格式,行索引必须为默认序号序列
df_test[ser_bool_1.reset_index(drop=True)]

举报

相关推荐

0 条评论