目录中按顺序排列的 rbind 数据集

`rbind` dataset by sequence in a directory

我有一个具有相同行和行号的数据集。我想 rbind 这些数据按两个顺序排列。

例如数据 5LSTT-test12_1.avgm5LSTT-test12_1_sum.avgm 首先,我想使用 rbind 合并它们,并使用新名称保存它们,比如 test12.avgm。这个过程应该对同一目录中的每两个文件完成。

我已经在网上查过了,但大多数解决方案都是将数据合并到一个文件中。我不知道如何合并两个数据并将它们保存为单个数据并执行此处理路径中的所有文件。

数据集是这样的

5LSTT-test12_1.avgm   
5LSTT-test12_1_sum.avgm  
5LSTT-test13_1.avgm   
5LSTT-test13_1_sum.avgm  
.  
.   
.  
.  
5LSTT-test30_1.avgm   
5LSTT-test30_1_sum.avgm  

假设对象名称向量 ('v1') 是有序的,我们可以使用 gl 将其 split 到每个列表元素的 2 个元素。我不确定这些对象是否已经在全局环境中。在这种情况下,我们可以使用 mget 并将 do.call(rbind, lapply(x, read.table) 替换为 do.call(rbind, mget(x))

lst <- lapply(split(v1,as.numeric(gl(length(v1), 2, length(v1)))), 
               function(x) do.call(rbind,lapply(x, read.table)))

将 'lst' 的名称更改为 'nm1'

nm1 <- sprintf('test%d.avgm', 12:30)
names(lst) <- nm1

如果我们需要创建新文件,我们可以这样做:

lapply(seq_along(lst), function(i) write.table(lst[[i]], 
                     paste0(nm1[i],'.txt'), quote=FALSE))

数据

v1 <- sort(sprintf('5LSTT-test%d_1.%s', 12:30,
               rep(c('avgm', 'sum.avgm'),each=19)))