# yyds干货盘点 # 盘点一个工作中Python自动化处理实战问题（番外篇）-CFANZ编程社区

# yyds干货盘点 # 盘点一个工作中Python自动化处理实战问题（番外篇）

大家好，我是皮皮。

一、前言

前几天在Python最强王者交流群【哎呦喂是豆子～】问了一个工作中Python自动化处理实战问题，一起来看看吧。问题描述：

数据在提供的数据表中，在表有编号、环节、审核人、金额、结束时间5列，对【编号、环节、审核人、金额】四条件进行分组，分组内结束时间升序排列，分组内结束时间相差20秒以内的，只保留第一条记录。

大佬再请问下分组内结束时间相差20秒以内的，只保留第一条记录这个怎么实现？这个做出来的老是有问题有个窗口函数用了数据又对不太上。

上一篇文章【小小明】给出了自己的解答，这一篇文章我们一起来看看【隔壁😼山楂】的解答。

二、实现过程

【隔壁😼山楂】在这有个疑问，同一个分组内有三个时间，2023-11-27 15:50:00，2023-11-27 15:50:05，2023-11-27 15:50:25，按你这个下来应该剩几个时间？粉丝回答是第1个和第3个。最终效果是：实现分组内任意2个时间点时间差都是大于20s。

这里【隔壁😼山楂】给了自己的代码，如下：

import pandas as pd


def func(date_s):
    """筛选函数"""
    min_date = date_s.iloc[0]
    for num, i in enumerate(date_s):
        if num and (i - min_date).seconds <= 20:
            yield False
        else:
            min_date = i
            yield True

df = pd.read_excel('工作量计算.xlsx')
df.sort_values(["编号", "环节", "审核人", "金额", "结束时间"], inplace=True)
df = df[df.groupby(["编号", "环节", "审核人", "金额"])['结束时间'].transform(func)]
print(df)

代码运行之后，结果如下：

# yyds干货盘点 # 盘点一个工作中Python自动化处理实战问题（番外篇）_数据