Pandas 根据条件重新采样和聚合
Pandas resample and aggregate with condition
我有一个 DataFrame,其中有一列的状态如下:
datetime | session | try | status
2020-09-17 10:00:01 | '1a' | '1a_1' | 'success'
2020-09-17 10:00:02 | '2a' | '2a_1' | 'fail'
2020-09-17 10:00:03 | '2a' | '2a_2' | 'success'
2020-09-17 10:00:03 | '3a' | '3a_1' | 'interrupted'
2020-09-18 13:00:04 | '4a' | '4a_1' | 'fail'
我想按天对数据进行重新采样,并在会话中按条件(而不是尝试)计算状态类型。
我可以像这样轻松地尝试重新采样:
df['date'] = df['datetime'].dt.date
df['ones'] = np.ones(df.shape[0])
piv = df.pivot_table(index='date', columns='status', values='ones', aggfunc=len).fillna(0)
并且拥有:
day | success | fail | interrupted
2020-09-17 | 2 | 2 | 1
2020-09-18 | 0 | 1 | 0
但我想按条件在会话中聚合它,无论在会话中尝试多少次。:
- if 'success' status in session tries, then success +1, fail +0, interrupted +0;
- 如果会话中有 'interrupted' 状态且会话中没有 'success' 状态,则成功 +0,失败 +0,中断 +1;
- if NO 'interrupted' AND 'success' status in session, then then success +0, fail +1, interrupted +0.
所以我应该得到这样的东西:
day | success | fail | interrupted
2020-09-17 | 2 | 0 | 1
2020-09-18 | 0 | 1 | 0
我坚持使用函数,但我得到的所有结果都以“ValueError:系列的真值不明确”结尾。我会非常感谢任何想法。
我的想法是将 statust 的值转换为有序类别,排序并仅获取传递给参数 categories
的列表中定义的最重要值的行:
print (df)
datetime session try status
0 2020-09-17 10:00:01 1a 1a_1 success
1 2020-09-17 10:00:02 2a 2a_1 fail
2 2020-09-17 10:00:03 2a 2a_2 success
3 2020-09-17 10:00:03 3a 3a_1 interrupted
4 2020-09-18 13:00:04 4a 4a_1 fail
5 2020-09-19 10:00:01 1a 1a_1 interrupted
6 2020-09-19 10:00:02 1a 2a_1 fail
7 2020-09-19 10:00:03 2a 2a_2 success
8 2020-09-19 10:00:03 2a 3a_1 interrupted
df['status'] = pd.Categorical(df['status'],
ordered=True,
categories=['success','interrupted','fail'])
df['date'] = df['datetime'].dt.date
df1 = df.sort_values(['date','status']).drop_duplicates(['date','session'])
print (df1)
datetime session try status date
0 2020-09-17 10:00:01 1a 1a_1 success 2020-09-17
2 2020-09-17 10:00:03 2a 2a_2 success 2020-09-17
3 2020-09-17 10:00:03 3a 3a_1 interrupted 2020-09-17
4 2020-09-18 13:00:04 4a 4a_1 fail 2020-09-18
7 2020-09-19 10:00:03 2a 2a_2 success 2020-09-19
5 2020-09-19 10:00:01 1a 1a_1 interrupted 2020-09-19
piv = pd.crosstab(df1['date'], df1['status'])
print (piv)
status success interrupted fail
date
2020-09-17 2 1 0
2020-09-18 0 0 1
2020-09-19 1 1 0
pandas
有很多不同的方法来聚合信息。这里的一种选择是使用 groupby
。我喜欢这种方法,因为它非常强大 - 另一个答案概述了一种使用 crosstab
的非常优雅的方法,但我想知道它的可扩展性如何。
注意你对你想要的内容的描述似乎与示例输出不匹配 - 你提到你想按会话而不是日期聚合。使用这种方法很容易做到这些。
def count_successes(x):
s = list(x)
return len([i for i in s if i == "success"])
def count_interrupteds(x):
s = list(x)
if "success" in s:
return 0
return len([i for i in s if i == "interrupted"])
def count_failures(x):
s = list(x)
if "success" in s:
return 0
if "interrupted" in s:
return 0
return len([i for i in s if i == "fail"])
df["date"] = df.datetime.dt.date
result = (
df.groupby("date", as_index=False)
.status
.agg({
"success": count_successes,
"fail": count_failures,
"interrupted": count_interrupteds,
})
)
这会生成您的示例输出。您可以看到我定义的用于生成每一列的函数非常简单,但可以变得任意复杂。
要改为每天按时段分组,请使用 groupby(["date", "session"]
代替 groupby("date"
。
我有一个 DataFrame,其中有一列的状态如下:
datetime | session | try | status
2020-09-17 10:00:01 | '1a' | '1a_1' | 'success'
2020-09-17 10:00:02 | '2a' | '2a_1' | 'fail'
2020-09-17 10:00:03 | '2a' | '2a_2' | 'success'
2020-09-17 10:00:03 | '3a' | '3a_1' | 'interrupted'
2020-09-18 13:00:04 | '4a' | '4a_1' | 'fail'
我想按天对数据进行重新采样,并在会话中按条件(而不是尝试)计算状态类型。
我可以像这样轻松地尝试重新采样:
df['date'] = df['datetime'].dt.date
df['ones'] = np.ones(df.shape[0])
piv = df.pivot_table(index='date', columns='status', values='ones', aggfunc=len).fillna(0)
并且拥有:
day | success | fail | interrupted
2020-09-17 | 2 | 2 | 1
2020-09-18 | 0 | 1 | 0
但我想按条件在会话中聚合它,无论在会话中尝试多少次。:
- if 'success' status in session tries, then success +1, fail +0, interrupted +0;
- 如果会话中有 'interrupted' 状态且会话中没有 'success' 状态,则成功 +0,失败 +0,中断 +1;
- if NO 'interrupted' AND 'success' status in session, then then success +0, fail +1, interrupted +0.
所以我应该得到这样的东西:
day | success | fail | interrupted
2020-09-17 | 2 | 0 | 1
2020-09-18 | 0 | 1 | 0
我坚持使用函数,但我得到的所有结果都以“ValueError:系列的真值不明确”结尾。我会非常感谢任何想法。
我的想法是将 statust 的值转换为有序类别,排序并仅获取传递给参数 categories
的列表中定义的最重要值的行:
print (df)
datetime session try status
0 2020-09-17 10:00:01 1a 1a_1 success
1 2020-09-17 10:00:02 2a 2a_1 fail
2 2020-09-17 10:00:03 2a 2a_2 success
3 2020-09-17 10:00:03 3a 3a_1 interrupted
4 2020-09-18 13:00:04 4a 4a_1 fail
5 2020-09-19 10:00:01 1a 1a_1 interrupted
6 2020-09-19 10:00:02 1a 2a_1 fail
7 2020-09-19 10:00:03 2a 2a_2 success
8 2020-09-19 10:00:03 2a 3a_1 interrupted
df['status'] = pd.Categorical(df['status'],
ordered=True,
categories=['success','interrupted','fail'])
df['date'] = df['datetime'].dt.date
df1 = df.sort_values(['date','status']).drop_duplicates(['date','session'])
print (df1)
datetime session try status date
0 2020-09-17 10:00:01 1a 1a_1 success 2020-09-17
2 2020-09-17 10:00:03 2a 2a_2 success 2020-09-17
3 2020-09-17 10:00:03 3a 3a_1 interrupted 2020-09-17
4 2020-09-18 13:00:04 4a 4a_1 fail 2020-09-18
7 2020-09-19 10:00:03 2a 2a_2 success 2020-09-19
5 2020-09-19 10:00:01 1a 1a_1 interrupted 2020-09-19
piv = pd.crosstab(df1['date'], df1['status'])
print (piv)
status success interrupted fail
date
2020-09-17 2 1 0
2020-09-18 0 0 1
2020-09-19 1 1 0
pandas
有很多不同的方法来聚合信息。这里的一种选择是使用 groupby
。我喜欢这种方法,因为它非常强大 - 另一个答案概述了一种使用 crosstab
的非常优雅的方法,但我想知道它的可扩展性如何。
注意你对你想要的内容的描述似乎与示例输出不匹配 - 你提到你想按会话而不是日期聚合。使用这种方法很容易做到这些。
def count_successes(x):
s = list(x)
return len([i for i in s if i == "success"])
def count_interrupteds(x):
s = list(x)
if "success" in s:
return 0
return len([i for i in s if i == "interrupted"])
def count_failures(x):
s = list(x)
if "success" in s:
return 0
if "interrupted" in s:
return 0
return len([i for i in s if i == "fail"])
df["date"] = df.datetime.dt.date
result = (
df.groupby("date", as_index=False)
.status
.agg({
"success": count_successes,
"fail": count_failures,
"interrupted": count_interrupteds,
})
)
这会生成您的示例输出。您可以看到我定义的用于生成每一列的函数非常简单,但可以变得任意复杂。
要改为每天按时段分组,请使用 groupby(["date", "session"]
代替 groupby("date"
。