如何创建滑动 window 并在 pandas 数据帧中应用函数
how to create a sliding window and apply functions in pandas dataframes
我有以下数据框:
Time A
1 1
2 1
3 1
4 1
5 2
6 2
7 3
8 3
9 2
10 1
11 1
12 1
13 3
14 3
15 3
需要创建一个长度为 3 的滑动 window 随时间滑动 2 步的列,并对 A 列应用一些服装函数(为了这个例子,让我们说平均值和最大值)
它的 r 等价物是
dat %>% dplyr::mutate(SMA_A=rollapplyr(A, 3, mean ,by = 2,align ="center", partial=TRUE, fill=NA),
Max_A =rollapplyr(A, 3, max ,by=2, align ="center", partial=TRUE,fill=NA)
)
预期输出:
Time A SMA_A Max_A
1 1 1.000000 1
2 1 NA NA
3 1 1.000000 1
4 1 NA NA
5 2 1.666667 2
6 2 NA NA
7 3 2.666667 3
8 3 NA NA
9 2 2.000000 3
10 1 NA NA
11 1 1.000000 1
12 1 NA NA
13 3 2.333333 3
14 3 NA NA
15 3 3.000000 3
或没有 NA
您可以执行以下操作:
- 用
DataFrame.rolling
计算滚动平均值和最大值
- 将它们分配为新列
- 通过检查
remainder == 1
是否为奇数来获取每个第二个索引行
- 对于第 3 步中的每个索引,将
NaN
分配为 .loc
df['A'] = df.rolling(3, center=True)['A'].mean().bfill().ffill()
df['Max_A'] = df.rolling(3, center=True)['A'].max().bfill().ffill()
mask_idx = df.index%2 == 1
df.loc[mask_idx, ['A', 'Max_A']] = np.NaN
输出
Time A Max_A
0 1 1.000000 1.0
1 2 NaN NaN
2 3 1.000000 1.0
3 4 NaN NaN
4 5 1.666667 2.0
5 6 NaN NaN
6 7 2.666667 3.0
7 8 NaN NaN
8 9 2.000000 3.0
9 10 NaN NaN
10 11 1.000000 1.0
11 12 NaN NaN
12 13 2.333333 3.0
13 14 NaN NaN
14 15 3.000000 3.0
我有以下数据框:
Time A
1 1
2 1
3 1
4 1
5 2
6 2
7 3
8 3
9 2
10 1
11 1
12 1
13 3
14 3
15 3
需要创建一个长度为 3 的滑动 window 随时间滑动 2 步的列,并对 A 列应用一些服装函数(为了这个例子,让我们说平均值和最大值)
它的 r 等价物是
dat %>% dplyr::mutate(SMA_A=rollapplyr(A, 3, mean ,by = 2,align ="center", partial=TRUE, fill=NA),
Max_A =rollapplyr(A, 3, max ,by=2, align ="center", partial=TRUE,fill=NA)
)
预期输出:
Time A SMA_A Max_A
1 1 1.000000 1
2 1 NA NA
3 1 1.000000 1
4 1 NA NA
5 2 1.666667 2
6 2 NA NA
7 3 2.666667 3
8 3 NA NA
9 2 2.000000 3
10 1 NA NA
11 1 1.000000 1
12 1 NA NA
13 3 2.333333 3
14 3 NA NA
15 3 3.000000 3
或没有 NA
您可以执行以下操作:
- 用
DataFrame.rolling
计算滚动平均值和最大值
- 将它们分配为新列
- 通过检查
remainder == 1
是否为奇数来获取每个第二个索引行 - 对于第 3 步中的每个索引,将
NaN
分配为.loc
df['A'] = df.rolling(3, center=True)['A'].mean().bfill().ffill()
df['Max_A'] = df.rolling(3, center=True)['A'].max().bfill().ffill()
mask_idx = df.index%2 == 1
df.loc[mask_idx, ['A', 'Max_A']] = np.NaN
输出
Time A Max_A
0 1 1.000000 1.0
1 2 NaN NaN
2 3 1.000000 1.0
3 4 NaN NaN
4 5 1.666667 2.0
5 6 NaN NaN
6 7 2.666667 3.0
7 8 NaN NaN
8 9 2.000000 3.0
9 10 NaN NaN
10 11 1.000000 1.0
11 12 NaN NaN
12 13 2.333333 3.0
13 14 NaN NaN
14 15 3.000000 3.0