快速滚动平均+总结

Question

在 R 中，我正在尝试使用不同的 window 宽度对大型向量（最多 400k 个元素）进行非常快速的滚动平均，然后对于每个 window 宽度汇总数据每年的最大值。希望下面的例子很清楚。我尝试了几种方法，到目前为止最快的方法似乎是使用包 RcppRoll 中的 roll_mean 作为运行平均值，并使用 aggregate 来选择最大值。请注意内存需求是一个问题：下面的版本需要很少的内存，因为它一次只做一个滚动平均值和聚合；这是首选。

#Example data frame of 10k measurements from 2001 to 2014
n <- 100000
df <- data.frame(rawdata=rnorm(n),
                 year=sort(sample(2001:2014, size=n, replace=TRUE))
                 ) 

ww <- 1:120 #Vector of window widths

dfsumm <- as.data.frame(matrix(nrow=14, ncol=121))
dfsumm[,1] <- 2001:2014
colnames(dfsumm) <- c("year", paste0("D=", ww))

system.time(for (i in 1:length(ww)) {
  #Do the rolling mean for this ww
  df$tmp <- roll_mean(df$rawdata, ww[i], na.rm=TRUE, fill=NA)
  #Aggregate maxima for each year
  dfsumm[,i+1] <- aggregate(data=df, tmp ~ year, max)[,2]
}) #28s on my machine
dfsumm

这给出了所需的输出：data.frame 有 15 行（从 2001 年到 2015 年）和 120 列（window 宽度），其中包含每个 ww 和每年的最大值。

但是，计算仍然需要很长时间（因为我必须计算数千个）。我尝试过其他选项，即 dplyr 和 data.table，但由于我对这些软件包缺乏了解，我无法更快地找到东西。

哪种方法最快，使用单核（代码已在别处并行化）？

Answer 1

您造成的一个性能问题是使用 cbind 动态增长矢量。您可以尝试预先分配预期大小，然后使用 dfsumm[x] <- y.

填充它

Answer 2

内存管理，即分配和复制，正在用你的方法杀死你。

这是一个data.table方法，它通过引用赋值：

library(data.table)
setDT(df)
alloc.col(df, 200) #allocate sufficient columns

#assign rolling means in a loop
for (i in seq_along(ww)) 
  set(df, j = paste0("D", i),  value = roll_mean(df[["rawdata"]], 
                                        ww[i], na.rm=TRUE, fill=NA))

dfsumm <- df[, lapply(.SD, max, na.rm = TRUE), by = year] #aggregate

Answer 3

使用新的 frollmean 函数（在 data.table v1.12.0 中添加），您可以执行以下操作

th = setDTthreads(1L)
df[, paste0("D",ww) := frollmean(rawdata, ww, na.rm=TRUE)]
dfsumm <- df[, lapply(.SD, max, na.rm=TRUE), by=year]
setDTthreads(th)

您应该考虑降低并行度，因为此用例在 frollmean 中得到了很好的并行化。分组操作也利用并行处理。

快速滚动平均+总结

Fast rolling mean + summarize

aggregate

r

dataframe

data.table

rolling-computation