根据 Pandas 中的 Where 条件分组
Grouping by with Where conditions in Pandas
有这样的数据框:
我创建列 'dif_pause' 基于减去 'pause_end' 和 'pause_start' 列值并使用 groupby () 函数进行平均值聚合,就像这样:
pauses['dif_pause'] = pauses['pause_end'] - pauses['pause_start']
pauses['dif_pause'].astype(dt.timedelta).map(lambda x: np.nan if pd.isnull(x) else x.days)
pauses_df=pauses.groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")
我想在 groupby 部分中包括检查是否 pause_end>pause_start(SQL 中 WHERE 子句的一些等价物)。怎么做到的?
谢谢。
看来您需要先 query
or boolean indexing
进行筛选:
pauses.query("pause_end > pause_start")
.groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")
pauses[pauses["pause_end"] > pauses["pause_start"]]
.groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")
有这样的数据框:
我创建列 'dif_pause' 基于减去 'pause_end' 和 'pause_start' 列值并使用 groupby () 函数进行平均值聚合,就像这样:
pauses['dif_pause'] = pauses['pause_end'] - pauses['pause_start']
pauses['dif_pause'].astype(dt.timedelta).map(lambda x: np.nan if pd.isnull(x) else x.days)
pauses_df=pauses.groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")
我想在 groupby 部分中包括检查是否 pause_end>pause_start(SQL 中 WHERE 子句的一些等价物)。怎么做到的?
谢谢。
看来您需要先 query
or boolean indexing
进行筛选:
pauses.query("pause_end > pause_start")
.groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")
pauses[pauses["pause_end"] > pauses["pause_start"]]
.groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")