在 for 循环中合并和命名数据框

Merge and name data frames in for loop

我有一堆 DF,名称如下:df1、df2、...、dfN

和 lt1, lt2, ..., ltN

我想将它们合并成一个循环,例如:

for (X in 1:N){
outputX <- merge(dfX, ltX, ...)
}

但我在每次迭代中更改输出、dfX 和 ltX 的名称时遇到了一些麻烦。我意识到 plyr/data.table/reshape 可能有更简单的方法,但我希望 for 循环能够工作。

也许我应该澄清一下。 DF 非常大,这就是 plyr 等无法工作(它们崩溃)的原因。我想避免复制。 代码中的下一个是保存合并的 DF。 这就是为什么我更喜欢 for 循环方法,因为我知道每个合并的 DF 在环境中的名称。

您可以将数据框组合成列表并使用 mapply,如下例所示:

i <- 1:3
d1.a <- data.frame(i=i,a=letters[i])
d1.b <- data.frame(i=i,A=LETTERS[i])

i <- 11:13
d2.a <- data.frame(i=i,a=letters[i])
d2.b <- data.frame(i=i,A=LETTERS[i])

L1 <- list(d1.a, d2.a)
L2 <- list(d1.b, d2.b)

mapply(merge,L1,L2,SIMPLIFY=F)
# [[1]]
#   i a A
# 1 1 a A
# 2 2 b B
# 3 3 c C
# 
# [[2]]
#   i a A
# 1 11 k K
# 2 12 l L
# 3 13 m M

如果您想在全局环境中保存每个生成的数据帧(不过我不建议这样做),您可以这样做:

result <- mapply(merge,L1,L2,SIMPLIFY=F)
names(result) <- paste0('output',seq_along(result))

这将为列表中的每个数据框命名,然后:

sapply(names(result),function(s) assign(s,result[[s]],envir = globalenv()))

请注意,提供的是基本 R 解决方案,其功能与您的示例代码基本相同。

如果您的数据框在列表中,编写 for 循环是微不足道的:

# lt = list(lt1, lt2, lt3, ...)
# if your data is very big, this may run you out of memory
lt = lapply(ls(pattern = "lt[0-9]*"), get)

merged_data = merge(lt[[1]], lt[[2]])


for (i in 3:length(lt)) {
    merged_data = merge(merged_data, lt[[i]])
    save(merged_data, file = paste0("merging", i, ".rda"))
}