Pandas 滚动应用跳过某些值
Pandas rolling apply skip certain values
我有一个数据框,我想计算 mean
列直到我对真实有效案例的值点。
ids valid value mean (target output)
1 False 0.1 0
1 True 0.2 0.2
1 True 0.4 0.3
2 True 0.1 0.1
2 False 0.5 0.1
2 True 0.3 0.2
3 True 0.1 0.1
3 True 0.1 0.1
3 False 0.5 0.1
3 False 0.9 0.1
如何从均值计算中排除 False 案例,但仍继续之前的均值。我试过了,但它没有跳过 False 案例中的值。我也在 groupby 之前尝试了 df[~df.valid] 但索引与原始 df 不匹配。
df['mean'] = df.groupby('ids').value.rolling(len(df), min_periods=1).apply(lambda x: np.mean(x)).values
您可以通过使用 groupby.apply
编写自定义滚动平均值来实现
df['mean'] = (
df
.groupby('ids')
.apply(
lambda df_: (df_['valid'] * df_['value']).cumsum() / (df_['valid']).cumsum()
)
.fillna(0) # No valid rows seen -> 0
.values # get rid of the index
)
print(df)
ids valid value mean (target output) mean
0 1 False 0.1 0.0 0.0
1 1 True 0.2 0.2 0.2
2 1 True 0.4 0.3 0.3
3 2 True 0.1 0.1 0.1
4 2 False 0.5 0.1 0.1
5 2 True 0.3 0.2 0.2
6 3 True 0.1 0.1 0.1
7 3 True 0.1 0.1 0.1
8 3 False 0.5 0.1 0.1
9 3 False 0.9 0.1 0.1
由于滚动平均值只是总和除以观察次数,我们可以使用 cumsum
创建两者的滚动版本,同时通过将观察次数和值都设置为零来抑制无效行。
我有一个数据框,我想计算 mean
列直到我对真实有效案例的值点。
ids valid value mean (target output)
1 False 0.1 0
1 True 0.2 0.2
1 True 0.4 0.3
2 True 0.1 0.1
2 False 0.5 0.1
2 True 0.3 0.2
3 True 0.1 0.1
3 True 0.1 0.1
3 False 0.5 0.1
3 False 0.9 0.1
如何从均值计算中排除 False 案例,但仍继续之前的均值。我试过了,但它没有跳过 False 案例中的值。我也在 groupby 之前尝试了 df[~df.valid] 但索引与原始 df 不匹配。
df['mean'] = df.groupby('ids').value.rolling(len(df), min_periods=1).apply(lambda x: np.mean(x)).values
您可以通过使用 groupby.apply
df['mean'] = (
df
.groupby('ids')
.apply(
lambda df_: (df_['valid'] * df_['value']).cumsum() / (df_['valid']).cumsum()
)
.fillna(0) # No valid rows seen -> 0
.values # get rid of the index
)
print(df)
ids valid value mean (target output) mean
0 1 False 0.1 0.0 0.0
1 1 True 0.2 0.2 0.2
2 1 True 0.4 0.3 0.3
3 2 True 0.1 0.1 0.1
4 2 False 0.5 0.1 0.1
5 2 True 0.3 0.2 0.2
6 3 True 0.1 0.1 0.1
7 3 True 0.1 0.1 0.1
8 3 False 0.5 0.1 0.1
9 3 False 0.9 0.1 0.1
由于滚动平均值只是总和除以观察次数,我们可以使用 cumsum
创建两者的滚动版本,同时通过将观察次数和值都设置为零来抑制无效行。