根据条件组合列表元素的快速方法

Question

我正在 R 中构建一个小函数，该函数从多个物种和多个地点进行尺寸测量，按地点组合所有数据（将许多物种集中在一起），然后计算这些组合数据的一些统计数据。

这里是一些简单的示例数据：

SiteID <- rep(c("D00002", "D00003", "D00004"), c(5, 2, 3))
SpeciesID <- c("CHIL", "CHIP", "GAM", "NZMS", "LUMB", "CHIL", "SIMA", "CHIP", "CHIL", "NZMS")
Counts <- data.frame(matrix(sample(0:99,200, replace = TRUE), nrow = 10, ncol = 20))
    colnames(Counts) <- paste0('B', 1:20)
spec <- cbind(SiteID, SpeciesID, Counts)
stat1 <- data.frame(unique(SiteID))
    colnames(stat1) <- 'SiteID'
    stat1$Mean <- NA

这是创建列表 lsize1 的函数，其中每个列表元素都是大小为（B1 到 B20）的向量，对于给定的 SpeciesID 在给定的 SiteID 中乘以每个尺寸的计数 class。由此，该函数创建了一个列表 lsize2，它组合了 lsize1 中具有相同 SiteID 的列表元素。最后，它获取 lsize2 中每个元素的平均值（即每个 SiteID 的个体平均大小，与 SpeciesID 无关），并将其作为结果输出。

fsize <- function(){
    specB <- spec[, 3:22]
    lsize1 <- apply(specB, 1, function(x) rep(1:20, x))
        names(lsize1) <- spec$SiteID
    lsize2 <- sapply(unique(names(lsize1)), function(x) unlist(lsize1[names(lsize1) == x], use.names = FALSE), simplify = FALSE)
        stat1[stat1$SiteID %in% names(lsize2), 'Mean'] <- round(sapply(lsize2, mean), 2)
    return(stat1)
}

在创建此函数时，我遵循了此处的建议：combine list elements based on element names，这正是我问题的症结所在：根据一些共同标准组合列表元素（在我的例子中，组合来自相同 SiteID）。该功能按预期工作，但我的问题是是否有办法让它更快？

注意：对于我的实际数据集，长度约为 40,000 行，我发现函数运行s 在 ~ 0.7 秒内完成，最耗时的步骤是创建 lsize2（~ 0.5 秒）。我需要运行这个函数很多很多次，使用不同的排列和数据子集，所以我希望有一种方法可以显着缩短这个处理时间。

Answer 1

这里应该不需要任何循环。这是一种尝试：

tmp <- data.frame(spec["SiteID"], sums = rowSums(specB * col(specB)), counts=rowSums(specB) )
tmp <- aggregate(. ~ SiteID, tmp, sum)
tmp$avg <- tmp$sums / tmp$counts
tmp

#  SiteID  sums counts      avg
#1 D00002 46254   4549 10.16795
#2 D00003 20327   1810 11.23039
#3 D00004 29651   2889 10.26341

比较：

fsize()
#  SiteID  Mean
#1 D00002 10.17
#2 D00003 11.23
#3 D00004 10.26

这段代码本质上是将每个值乘以它的索引 (col(specB))，然后 aggregate 将总和和计数乘以 SiteID。此逻辑也应该相对可转移到其他方法 (data.table/dplyr)。例如：在 data.table:

setDT(spec)
spec[, .(avg = sum(.SD * col(.SD)) / sum(unlist(.SD))), by=SiteID, .SDcols=B1:B20]

#   SiteID      avg
#1: D00002 10.16795
#2: D00003 11.23039
#3: D00004 10.26341

根据条件组合列表元素的快速方法

Fast method for combining list elements based on criteria

r

list

apply

sapply