计算 r 数据中的滚动分区 table
Calculating a rolling division in r data table
我有一个这样的数据table:
a group
1: 1 a
2: 2 a
3: 3 a
4: 4 a
5: 5 a
6: 6 a
示例可以通过以下代码创建:
structure(list(a = 1:100, group = c("a", "a", "a", "a", "a",
"a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a",
"a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a",
"a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a",
"a", "a", "a", "a", "a", "a", "b", "b", "b", "b", "b", "b", "b",
"b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b",
"b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b",
"b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b",
"b", "b", "b", "b")), .Names = c("a", "group"), row.names = c(NA,
-100L), class = c("data.table", "data.frame"), .internal.selfref = <pointer: 0x0000000004790788>)
对于每组中的每一行,我想:
- 在第
a
列取值
- 除以滞后 2 的
a
列中的值并减去 1
- 除以滞后 4 的
a
列中的值并减去 1
- 除以滞后 6 的
a
列中的值并减去 1
- 将步骤 2-4 的结果求和 return 在新列中
因此,对于第 1-6 行,我会有 NA
,然后是 7/5 + 7/3 + 7/1 - 3
、8/6 + 8/4 + 8/2 - 3
、9/7 + 9/5 + 9/3 - 3
、10/8 + 10/6 + 10/4 - 3
所以根据第一个块中报告的 table,我想得到一个新列,比如 metric_1
,它在第 10 行的值为 2.416667
请注意,a
列中的值实际上不会对应于行号,而是一些测量值。
最终输出将如下所示:
a group metric_1
1: 1 a NA
2: 2 a NA
3: 3 a NA
4: 4 a NA
5: 5 a NA
6: 6 a NA
7: 7 a 7.733333
8: 8 a 4.333333
9: 9 a 3.085714
10: 10 a 2.416667
我已经尝试了一些带有 Reduce
的版本,如果我需要对向量中的一些值求和,它可以像冠军一样工作,但我无法调整它使我能够像这样进行除法这个。
我不确定这是否正是您要找的,但也许它会有所帮助:
library(dplyr)
the_data %>% group_by(group) %>%
mutate(metric_1 = (a/lag(a, 2)-1)+( a/lag(a,4)-1) + (a/lag(a, 6) - 1 )) %>%
ungroup()
找到了一种可能的解决方案:
dt[,
list(a, Reduce(`+`, lapply(shift(a, seq(2, 6, by = 2)),
function(x) a/x - 1))),
by = "group"]
但是比较慢
我有一个这样的数据table:
a group
1: 1 a
2: 2 a
3: 3 a
4: 4 a
5: 5 a
6: 6 a
示例可以通过以下代码创建:
structure(list(a = 1:100, group = c("a", "a", "a", "a", "a",
"a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a",
"a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a",
"a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a",
"a", "a", "a", "a", "a", "a", "b", "b", "b", "b", "b", "b", "b",
"b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b",
"b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b",
"b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b", "b",
"b", "b", "b", "b")), .Names = c("a", "group"), row.names = c(NA,
-100L), class = c("data.table", "data.frame"), .internal.selfref = <pointer: 0x0000000004790788>)
对于每组中的每一行,我想:
- 在第
a
列取值
- 除以滞后 2 的
a
列中的值并减去 1 - 除以滞后 4 的
a
列中的值并减去 1 - 除以滞后 6 的
a
列中的值并减去 1 - 将步骤 2-4 的结果求和 return 在新列中
因此,对于第 1-6 行,我会有 NA
,然后是 7/5 + 7/3 + 7/1 - 3
、8/6 + 8/4 + 8/2 - 3
、9/7 + 9/5 + 9/3 - 3
、10/8 + 10/6 + 10/4 - 3
所以根据第一个块中报告的 table,我想得到一个新列,比如 metric_1
,它在第 10 行的值为 2.416667
请注意,a
列中的值实际上不会对应于行号,而是一些测量值。
最终输出将如下所示:
a group metric_1
1: 1 a NA
2: 2 a NA
3: 3 a NA
4: 4 a NA
5: 5 a NA
6: 6 a NA
7: 7 a 7.733333
8: 8 a 4.333333
9: 9 a 3.085714
10: 10 a 2.416667
我已经尝试了一些带有 Reduce
的版本,如果我需要对向量中的一些值求和,它可以像冠军一样工作,但我无法调整它使我能够像这样进行除法这个。
我不确定这是否正是您要找的,但也许它会有所帮助:
library(dplyr)
the_data %>% group_by(group) %>%
mutate(metric_1 = (a/lag(a, 2)-1)+( a/lag(a,4)-1) + (a/lag(a, 6) - 1 )) %>%
ungroup()
找到了一种可能的解决方案:
dt[,
list(a, Reduce(`+`, lapply(shift(a, seq(2, 6, by = 2)),
function(x) a/x - 1))),
by = "group"]
但是比较慢