组边界内的滚动总和
Rolling sum within group boundaries
我正在尝试根据以下玩具数据计算滚动总和:
structure(list(Tag = c("1", "1", "1", "1", "2", "2", "2", "2", "2",
"2"), ID = c("A", "A", "A", "B", "J", "J", "J", "A", "A", "A" ),
correctvis = c(1, 0, 1, 1, 1, 0, 1, 0, 1, 0)), row.names = c(NA,
-10L), groups = structure(list(ID = "A", Tag = "1",
.rows = structure(list(1:10), ptype = integer(0), class = c("vctrs_list_of",
"vctrs_vctr", "list"))), row.names = 1L, class = c("tbl_df", "tbl", "data.frame"), .drop = TRUE), class = c("grouped_df",
"tbl_df", "tbl", "data.frame"))
我已经使用 data.table
和 dplyr
这样做了:
test <- as.data.table(df)[,sums2 := frollsum(correctvis, 7), by = c("ID","Tag")]
test <- df %>%
group_by(ID, Tag) %>%
mutate(sums = roll_sum(correctvis, 7, align = "right", fill = NA))
两者的结果相同。
注意: 实际上,我的 Tag/ID 列表持续的时间要长得多,这就是为什么我使用 7 的 window 而不是更小的列表。
问题:
尽管使用 group_by 和 by=,但 roll_sum 和 froll_sum 使用的 window 超出了组的边界。那就是:我想开始计数,就好像每个分组之前的所有值 correctvis
都为 0(对于该分组)。
以下代码似乎尊重分组(基于 tibbletime
包):
rolling_sum <- rollify(.f = sum, window = 7)
df <- df %>%
group_by(ID, Tag) %>%
mutate(sums2 = rolling_sum(correctvis))
但是,此代码将不起作用,因为在某些情况下,我对每个特定分组的观察少于 7 个,从而导致错误:
Cannot roll apply with a window larger than the
length of the data
我的问题:
- 我能否调整 dplyr/data.table 代码,使其在应用滚动总和时尊重我的分组?
或
有没有办法让 rollify 代码适用于我 window 的尺寸。我的一个想法是使用 case_when 比如:
rolling_sum <- rollify(.f = sum, window = case_when(n=1~1,n=2~2, etc.))
但我无法让它工作。
这是一个使用 data.table::frollmean
的选项:
library(data.table)
k <- 7L
setDT(df)[, if (.N > k) frollmean(correctvis, c(1L:k, rep(k, .N - k)), adaptive=TRUE)
else frollmean(correctvis, seq_len(.N), adaptive=TRUE),
.(ID, Tag, rleid(ID, Tag))]
输出:
ID Tag rleid V1
1: A 1 1 1.0000000
2: A 1 1 0.5000000
3: A 1 1 0.6666667
4: B 1 2 1.0000000
5: J 2 3 1.0000000
6: J 2 3 0.5000000
7: J 2 3 0.6666667
8: A 2 4 0.0000000
9: A 2 4 0.5000000
10: A 2 4 0.3333333
我正在尝试根据以下玩具数据计算滚动总和:
structure(list(Tag = c("1", "1", "1", "1", "2", "2", "2", "2", "2",
"2"), ID = c("A", "A", "A", "B", "J", "J", "J", "A", "A", "A" ),
correctvis = c(1, 0, 1, 1, 1, 0, 1, 0, 1, 0)), row.names = c(NA,
-10L), groups = structure(list(ID = "A", Tag = "1",
.rows = structure(list(1:10), ptype = integer(0), class = c("vctrs_list_of",
"vctrs_vctr", "list"))), row.names = 1L, class = c("tbl_df", "tbl", "data.frame"), .drop = TRUE), class = c("grouped_df",
"tbl_df", "tbl", "data.frame"))
我已经使用 data.table
和 dplyr
这样做了:
test <- as.data.table(df)[,sums2 := frollsum(correctvis, 7), by = c("ID","Tag")]
test <- df %>%
group_by(ID, Tag) %>%
mutate(sums = roll_sum(correctvis, 7, align = "right", fill = NA))
两者的结果相同。
注意: 实际上,我的 Tag/ID 列表持续的时间要长得多,这就是为什么我使用 7 的 window 而不是更小的列表。
问题:
尽管使用 group_by 和 by=,但 roll_sum 和 froll_sum 使用的 window 超出了组的边界。那就是:我想开始计数,就好像每个分组之前的所有值 correctvis
都为 0(对于该分组)。
以下代码似乎尊重分组(基于 tibbletime
包):
rolling_sum <- rollify(.f = sum, window = 7)
df <- df %>%
group_by(ID, Tag) %>%
mutate(sums2 = rolling_sum(correctvis))
但是,此代码将不起作用,因为在某些情况下,我对每个特定分组的观察少于 7 个,从而导致错误:
Cannot roll apply with a window larger than the length of the data
我的问题:
- 我能否调整 dplyr/data.table 代码,使其在应用滚动总和时尊重我的分组?
或
有没有办法让 rollify 代码适用于我 window 的尺寸。我的一个想法是使用 case_when 比如:
rolling_sum <- rollify(.f = sum, window = case_when(n=1~1,n=2~2, etc.))
但我无法让它工作。
这是一个使用 data.table::frollmean
的选项:
library(data.table)
k <- 7L
setDT(df)[, if (.N > k) frollmean(correctvis, c(1L:k, rep(k, .N - k)), adaptive=TRUE)
else frollmean(correctvis, seq_len(.N), adaptive=TRUE),
.(ID, Tag, rleid(ID, Tag))]
输出:
ID Tag rleid V1
1: A 1 1 1.0000000
2: A 1 1 0.5000000
3: A 1 1 0.6666667
4: B 1 2 1.0000000
5: J 2 3 1.0000000
6: J 2 3 0.5000000
7: J 2 3 0.6666667
8: A 2 4 0.0000000
9: A 2 4 0.5000000
10: A 2 4 0.3333333