pandas 根据按列分组的指标计算差异
pandas calculate difference based on indicators grouped by a column
这是我的问题。不知道怎么形容,就举个例子吧。
a b k
0 0 0
0 1 1
0 2 0
0 3 0
0 4 1
0 5 0
1 0 0
1 1 1
1 2 0
1 3 1
1 4 0
这里,"a"是用户id,"b"是时间,"k"是二进制指标标志。 "b" 肯定是连续的。
我想要得到的是:
a b k diff_b
0 0 0 nan
0 1 1 nan
0 2 0 1
0 3 0 2
0 4 1 3
0 5 0 1
1 0 0 nan
1 1 1 nan
1 2 0 1
1 3 1 2
1 4 0 1
所以,diff_b是一个时差变量。它显示当前时间点和最后一个时间点之间的持续时间。如果之前从未有过任何动作,它 returns nan。这个 diff_b 按 a 分组。对于每个用户,这个diff_b是独立计算的。
有人可以修改我的标题吗?我不知道如何用英语描述它。好复杂...
谢谢!
IIUC
df['New']=df.b.loc[df.k==1]# get all value b when k equal to 1
df.New=df.groupby('a').New.apply(lambda x : x.ffill().shift()) # fillna by froward method , then we need shift.
df.b-df['New']# yield
Out[260]:
0 NaN
1 NaN
2 1.0
3 2.0
4 3.0
5 1.0
6 NaN
7 NaN
8 1.0
9 2.0
10 1.0
dtype: float64
使用 cumsum 为 k == 1
到下一个 k == 1
之后的行数据创建分区,并为每组 a
移动
parts = df.groupby('a').k.apply(lambda x: x.shift().cumsum())
按 df.a
和 parts
分组并计算每个组内 b
和 b.min()
之间的差异
vals = df.groupby([df.a, parts]).b.apply(lambda x: x-x.min()+1)
当部分 == 0 时将值设置为 null 并分配回数据帧
df['diff_b'] = np.select([parts!=0], [vals], np.nan)
输出:
a b k diff_b
0 0 0 0 NaN
1 0 1 1 NaN
2 0 2 0 1.0
3 0 3 0 2.0
4 0 4 1 3.0
5 0 5 0 1.0
6 1 0 0 NaN
7 1 1 1 NaN
8 1 2 0 1.0
9 1 3 1 2.0
10 1 4 0 1.0
这是我的问题。不知道怎么形容,就举个例子吧。
a b k
0 0 0
0 1 1
0 2 0
0 3 0
0 4 1
0 5 0
1 0 0
1 1 1
1 2 0
1 3 1
1 4 0
这里,"a"是用户id,"b"是时间,"k"是二进制指标标志。 "b" 肯定是连续的。 我想要得到的是:
a b k diff_b
0 0 0 nan
0 1 1 nan
0 2 0 1
0 3 0 2
0 4 1 3
0 5 0 1
1 0 0 nan
1 1 1 nan
1 2 0 1
1 3 1 2
1 4 0 1
所以,diff_b是一个时差变量。它显示当前时间点和最后一个时间点之间的持续时间。如果之前从未有过任何动作,它 returns nan。这个 diff_b 按 a 分组。对于每个用户,这个diff_b是独立计算的。
有人可以修改我的标题吗?我不知道如何用英语描述它。好复杂...
谢谢!
IIUC
df['New']=df.b.loc[df.k==1]# get all value b when k equal to 1
df.New=df.groupby('a').New.apply(lambda x : x.ffill().shift()) # fillna by froward method , then we need shift.
df.b-df['New']# yield
Out[260]:
0 NaN
1 NaN
2 1.0
3 2.0
4 3.0
5 1.0
6 NaN
7 NaN
8 1.0
9 2.0
10 1.0
dtype: float64
使用 cumsum 为 k == 1
到下一个 k == 1
之后的行数据创建分区,并为每组 a
parts = df.groupby('a').k.apply(lambda x: x.shift().cumsum())
按 df.a
和 parts
分组并计算每个组内 b
和 b.min()
之间的差异
vals = df.groupby([df.a, parts]).b.apply(lambda x: x-x.min()+1)
当部分 == 0 时将值设置为 null 并分配回数据帧
df['diff_b'] = np.select([parts!=0], [vals], np.nan)
输出:
a b k diff_b
0 0 0 0 NaN
1 0 1 1 NaN
2 0 2 0 1.0
3 0 3 0 2.0
4 0 4 1 3.0
5 0 5 0 1.0
6 1 0 0 NaN
7 1 1 1 NaN
8 1 2 0 1.0
9 1 3 1 2.0
10 1 4 0 1.0