python 数据库上的选择性日期时间

Selective datetime on python database

我在 jupyter notebook 上与我公司的客户有一个 df,他们正在回答一项可以多次回答的研究,并且数据时间已注册。我想 select 每个客户的最新答案并将其分组到一个新的数据框中。

我尝试使用:

df_1 = df[df['Submit Date'] == df['Submit Date'].max()].copy()

但 .max() 只是 select 最新日期,因此 df_1 只得到 1 个值。我是这方面的新手,如果有一些初学者级别的错误,请原谅。

您需要按回答日期升序排序,然后按回答的客户删除重复项。如果遇到多个值,您将保留最后一个客户,以确保您有最新的答案。代码如下所示:

df.sort_values('Submit Date').drop_duplicates(subset=['customer'], keep=’last’)