pandas groupby shift 不尊重群体
pandas groupby shift is not respecting the groups
我有以下 DataFrame 和一个任意函数
df = pd.DataFrame(
{'grp': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3],
'val': [0.80485036, 0.30698609, 0.33518013, 0.12214516, 0.66355629,
0.71277808, 0.07193942, 0.97128731, 0.46351423, 0.81494857,
0.82267912, 0.33043168, 0.55643, 0.63413976, 0.37998928, 0.54695376,
0.99751999, 0.02726808, 0.2392102 , 0.93278521, 0.41905688]}
)
def myfunc(arr):
return np.product(1+arr) - 1
我计算myfunc
组内滚动:
df.groupby('grp')['val'].rolling(3).apply(myfunc)
grp
1 0 NaN
1 NaN
2 2.149576
3 0.958213
4 1.492450
5 2.197331
6 2.054280
7 2.619272
8 2.092553
9 4.236139
10 3.841406
2 11 NaN
3 12 NaN
13 NaN
14 2.509898
15 2.488528
16 3.264265
17 2.174331
18 1.542845
19 1.460438
20 2.398822
这一切都很好。现在我需要将组内的滚动计算移回五个周期。
df.groupby('grp')['val'].rolling(3).apply(myfunc).shift(-5)
grp
1 0 2.197331
1 2.054280
2 2.619272
3 2.092553
4 4.236139
5 3.841406
6 NaN
7 NaN
8 NaN
9 2.509898
10 2.488528
2 11 3.264265
3 12 2.174331
13 1.542845
14 1.460438
15 2.398822
16 NaN
17 NaN
18 NaN
19 NaN
20 NaN
Name: val, dtype: float64
这是怎么回事?! groupby 的全部目的是保持组之间的界限。 pandas 如何(以及 为什么 )不尊重这一点。应该是:
grp
1 0 2.197331
1 2.054280
2 2.619272
3 2.092553
4 4.236139
5 3.841406
6 NaN
7 NaN
8 NaN
9 NaN
10 NaN
2 11 NaN
3 12 2.174331
13 1.542845
14 1.460438
15 2.398822
16 NaN
17 NaN
18 NaN
19 NaN
20 NaN
Name: val, dtype: float64
这似乎是 pandas 中的一个严重错误。我错过了什么吗?我怎样才能让groupby做一个groupby?
问题是,当分解成碎片时,代码
df.groupby('grp')['val'].rolling(3).apply(myfunc).shift(-5)
相当于
tmp = df.groupby('grp')['val'].rolling(3).apply(myfunc)
out = tmp.shift(-5)
这里,tmp
是正常的pd.Series
。正如您现在可以猜测的那样,out
在正常系列上移动,没有任何分组。这是预期的行为。
要获得所需的输出,您可以与另一个 groupby 链接:
(df.groupby('grp')['val'].rolling(3).apply(myfunc)
.groupby('grp').shift(-5) # extra groupby here
)
一切都会好起来的。
我有以下 DataFrame 和一个任意函数
df = pd.DataFrame(
{'grp': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3],
'val': [0.80485036, 0.30698609, 0.33518013, 0.12214516, 0.66355629,
0.71277808, 0.07193942, 0.97128731, 0.46351423, 0.81494857,
0.82267912, 0.33043168, 0.55643, 0.63413976, 0.37998928, 0.54695376,
0.99751999, 0.02726808, 0.2392102 , 0.93278521, 0.41905688]}
)
def myfunc(arr):
return np.product(1+arr) - 1
我计算myfunc
组内滚动:
df.groupby('grp')['val'].rolling(3).apply(myfunc)
grp
1 0 NaN
1 NaN
2 2.149576
3 0.958213
4 1.492450
5 2.197331
6 2.054280
7 2.619272
8 2.092553
9 4.236139
10 3.841406
2 11 NaN
3 12 NaN
13 NaN
14 2.509898
15 2.488528
16 3.264265
17 2.174331
18 1.542845
19 1.460438
20 2.398822
这一切都很好。现在我需要将组内的滚动计算移回五个周期。
df.groupby('grp')['val'].rolling(3).apply(myfunc).shift(-5)
grp
1 0 2.197331
1 2.054280
2 2.619272
3 2.092553
4 4.236139
5 3.841406
6 NaN
7 NaN
8 NaN
9 2.509898
10 2.488528
2 11 3.264265
3 12 2.174331
13 1.542845
14 1.460438
15 2.398822
16 NaN
17 NaN
18 NaN
19 NaN
20 NaN
Name: val, dtype: float64
这是怎么回事?! groupby 的全部目的是保持组之间的界限。 pandas 如何(以及 为什么 )不尊重这一点。应该是:
grp
1 0 2.197331
1 2.054280
2 2.619272
3 2.092553
4 4.236139
5 3.841406
6 NaN
7 NaN
8 NaN
9 NaN
10 NaN
2 11 NaN
3 12 2.174331
13 1.542845
14 1.460438
15 2.398822
16 NaN
17 NaN
18 NaN
19 NaN
20 NaN
Name: val, dtype: float64
这似乎是 pandas 中的一个严重错误。我错过了什么吗?我怎样才能让groupby做一个groupby?
问题是,当分解成碎片时,代码
df.groupby('grp')['val'].rolling(3).apply(myfunc).shift(-5)
相当于
tmp = df.groupby('grp')['val'].rolling(3).apply(myfunc)
out = tmp.shift(-5)
这里,tmp
是正常的pd.Series
。正如您现在可以猜测的那样,out
在正常系列上移动,没有任何分组。这是预期的行为。
要获得所需的输出,您可以与另一个 groupby 链接:
(df.groupby('grp')['val'].rolling(3).apply(myfunc)
.groupby('grp').shift(-5) # extra groupby here
)
一切都会好起来的。