如何将多行的 R 数据框重新格式化为一行
How to reformat an R data frame with multiple rows into one row
我有如下所示的数据框,我需要将其重新格式化为一行,这样我就可以创建一个新的数据框,它是许多更简单的数据框的集合,新数据框中有一行表示一个较简单的原始数据帧的所有数据。
这是原始数据帧格式的一个简单示例:
> myDf = data.frame(Seconds=seq(0,1,.25), s1=seq(0,8,2), s2=seq(1,9,2))
>
> myDf
Seconds s1 s2
1 0.00 0 1
2 0.25 2 3
3 0.50 4 5
4 0.75 6 7
5 1.00 8 9
下面是我希望它在重新格式化后的样子。每列表示rXsY,其中"rX"表示原始数据框的行号,"sY"表示原始数据框的"s1"或"s2"列。 "Seconds" 列在新数据框中被省略,因为它的信息隐含在行号中。
> myNewDf
r1s1 r1s2 r2s1 r2s2 r3s1 r3s2 r4s1 r4s2 r5s1 r5s2
1 0 1 2 3 4 5 6 7 8 9
我怀疑这真的很简单,可能涉及 reshape()
、melt()
、and/or cast()
的某种组合,但正确的咒语让我难以理解。我可以 post 我试过的方法,但我认为这只会分散注意力,让我忽略可能是一个简单的问题?如果有人希望我这样做,请在评论中提问。
理想的解决方案还可以根据原始数据框的列名以某种方式以编程方式生成新的列名,因为列名并不总是相同的。另外,如果这不难,我可以以某种方式同时对相似数据框列表执行相同的操作(行数相同,列名相同,但 s1 和 s2 列中的值不同)?最终我需要一个包含来自多个更简单数据帧的数据的单个数据帧,就像这样...
> myCombinedNewDf # data combined from 4 separate original data frames
r1s1 r1s2 r2s1 r2s2 r3s1 r3s2 r4s1 r4s2 r5s1 r5s2
1 0 1 2 3 4 5 6 7 8 9
2 10 11 12 13 14 15 16 17 18 19
3 20 21 22 23 24 25 26 27 28 29
4 30 31 32 33 34 35 36 37 38 39
您可以从 data.table
的开发版本中尝试 dcast
,即 v1.9.5,它可以包含多个 value.var
列。创建两列,第一列使用 row number
('rn'),第二列使用分组变量 ('grp'),然后使用 dcast
。安装细节是here
library(data.table)#v1.9.5+
dcast(setDT(myDf[-1])[, c('rn1', 'grp') := list(paste0('r', 1:.N), 1)],
grp~rn1, value.var=c('s1', 's2'))
# grp r1_s1 r2_s1 r3_s1 r4_s1 r5_s1 r1_s2 r2_s2 r3_s2 r4_s2 r5_s2
#1: 1 0 2 4 6 8 1 3 5 7 9
或者我们可以使用 base R
中的 reshape
reshape(transform(myDf, rn1=paste0('r', 1:nrow(myDf)), grp=1)[-1],
idvar='grp', timevar='rn1', direction='wide')
# grp s1.r1 s2.r1 s1.r2 s2.r2 s1.r3 s2.r3 s1.r4 s2.r4 s1.r5 s2.r5
#1 1 0 1 2 3 4 5 6 7 8 9
更新
如果我们有多个数据框,我们可以将数据集放在一个列表中,然后使用 lapply
和 dcast
或 rbind 列表中的数据集 rbindlist
指定分组变量对于每个数据集,然后在整个数据集上应用 dcast
。
使用@Alex A. 的 post
中的“myOtherDF”
myDFList <- list(myDf, myOtherDF)
dcast(rbindlist(Map(cbind, myDFList, gr=seq_along(myDFList)))[,-1,
with=FALSE][, rn1:= paste0('r', 1:.N), by=gr],
gr~rn1, value.var=c('s1', 's2'))
# gr r1_s1 r2_s1 r3_s1 r4_s1 r5_s1 r1_s2 r2_s2 r3_s2 r4_s2 r5_s2
#1: 1 0 2 4 6 8 1 3 5 7 9
#2: 2 1 3 5 7 9 0 2 4 6 8
使用 reshape2
中的 melt()
,你可以这样做:
library(reshape2)
# Melt the data, omitting `Seconds`
df.melted <- melt(myDF[, -1], id.vars = NULL)
# Transpose the values into a single row
myNewDF <- t(df.melted[, 2])
# Assign new variable names
colnames(myNewDF) <- paste0("r", rownames(myDF), df.melted[, 1])
# r1s1 r2s1 r3s1 r4s1 r5s1 r1s2 r2s2 r3s2 r4s2 r5s2
# 1 0 2 4 6 8 1 3 5 7 9
这会融化数据框,使用第一列(原始数据集中的变量名称)构造新数据集的变量名称,并使用第二列(数据值)的转置作为行数据。
如果您想要一种自动组合数据集的方法,您可以更进一步:
# Another data frame
myOtherDF <- data.frame(Seconds = seq(0, 1, 0.25),
s1 = seq(1, 9, 2),
s2 = seq(0, 8, 2))
# Turn the above steps into a function
colToRow <- function(x) {
melted <- melt(x[, -1], id.vars = NULL)
row <- t(melted[, 2])
colnames(row) <- paste0("r", rownames(x), melted[, 1])
row
}
# Create a list of the data frames to process
myDFList <- list(myDF, myOtherDF)
# Apply our function to each data frame in the list and append
myNewDF <- data.frame(do.call(rbind, lapply(myDFList, colToRow)))
# r1s1 r2s1 r3s1 r4s1 r5s1 r1s2 r2s2 r3s2 r4s2 r5s2
# 1 0 2 4 6 8 1 3 5 7 9
# 2 1 3 5 7 9 0 2 4 6 8
可以使用c(t(therelevantdata))
.
按行提取相关值
换句话说:
Values <- c(t(myDf[-1]))
如果此时名称很重要,您可以这样做:
Names <- sprintf("r%ss%s", rep(1:5, each = 2), 1:2)
您可以通过以下方式获得命名向量:
setNames(Values, Names)
# r1s1 r1s2 r2s1 r2s2 r3s1 r3s2 r4s1 r4s2 r5s1 r5s2
# 0 1 2 3 4 5 6 7 8 9
或命名的单行 data.frame
具有:
setNames(data.frame(t(Values)), Names)
# r1s1 r1s2 r2s1 r2s2 r3s1 r3s2 r4s1 r4s2 r5s1 r5s2
# 1 0 1 2 3 4 5 6 7 8 9
如果您有 list
个 data.frame
,正如@cyro111 的回答中所分享的那样,您可以轻松地执行以下操作:
do.call(rbind, lapply(myDfList, function(x) c(t(x[-1]))))
# [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
# [1,] 0 1 2 3 4 5 6 7 8 9
# [2,] 10 11 12 13 14 15 16 17 18 19
使用 as.data.frame
转换为 data.frame
,并使用 names <-
或 setNames
添加名称。
泛化为函数:
myFun <- function(indf, asVec = TRUE) {
values <- c(t(indf[-1]))
Names <- sprintf("r%ss%s", rep(1:nrow(indf), each = ncol(indf[-1])),
1:ncol(indf[-1]))
out <- setNames(values, Names)
if (isTRUE(asVec)) out
else (as.data.frame(as.matrix(t(out))))
}
试试看:
myFun(myDf) # Vector
myFun(myDf, FALSE) # data.frame
在 data.frame
的 list
上更方便....有很多选择:-)
dfList1 <- list(
data.frame(s = 1:2, a1 = 1:2, a2 = 3:4, a3 = 5:6),
data.frame(s = 1:2, a1 = 11:12, a2 = 31:32, a3 = 51:52)
)
lapply(dfList1, myFun)
do.call(rbind, lapply(dfList1, myFun))
t(sapply(dfList1, myFun))
as.data.frame(do.call(rbind, lapply(dfList1, myFun)))
基础 R 解决方案
#prepare data
myDf1 = data.frame(Seconds=seq(0,1,.25), s1=seq(0,8,2), s2=seq(1,9,2))
myDf2 = data.frame(Seconds=seq(0,1,.25), s1=seq(10,18,2), s2=seq(11,19,2))
myDfList=list(myDf1,myDf2)
#allocate memory
myCombinedNewDf=data.frame(matrix(NA_integer_,nrow=length(myDfList),ncol=(ncol(myDf1)-1)*nrow(myDf1)))
#reformat
for (idx in 1:length(myDfList)) myCombinedNewDf[idx,]=c(t(myDfList[[idx]][,-1]))
#set colnames
colnames(myCombinedNewDf)=paste0("r",sort(rep.int(1:nrow(myDf1),2)),colnames(myDf1)[-1])
根据请求处理单独因子列的扩展版本:
#allocate memory
#the first column should ultimately be a factor
#I would use a character column first and later change it to type factor
#note the stringsAsFactors option!
myCombinedNewDf=data.frame(rep(NA_character_,length(myDfList)),
matrix(NA_integer_,
nrow=length(myDfList),
ncol=(ncol(myDf1)-1)*nrow(myDf1)),
stringsAsFactors=FALSE)
#reformat
for (idx in 1:length(myDfList)) {
myCombinedNewDf[idx,-1]=c(t(myDfList[[idx]][,-1]))
#I have just made up some criterion to get one "yes" and one "no"
#"yes" if the sum of all values is below 100, "no" otherwise
myCombinedNewDf[idx,1]=if (sum(myDfList[[idx]][,-1])<100) "yes" else "no"
}
#set colnames
colnames(myCombinedNewDf)=c("flag",
paste0("r",
sort(rep.int(1:nrow(myDf1),2)),
colnames(myDf1)[-1])
)
myCombinedNewDf$flag=factor(myCombinedNewDf$flag)
myCombinedNewDf
我有如下所示的数据框,我需要将其重新格式化为一行,这样我就可以创建一个新的数据框,它是许多更简单的数据框的集合,新数据框中有一行表示一个较简单的原始数据帧的所有数据。
这是原始数据帧格式的一个简单示例:
> myDf = data.frame(Seconds=seq(0,1,.25), s1=seq(0,8,2), s2=seq(1,9,2))
>
> myDf
Seconds s1 s2
1 0.00 0 1
2 0.25 2 3
3 0.50 4 5
4 0.75 6 7
5 1.00 8 9
下面是我希望它在重新格式化后的样子。每列表示rXsY,其中"rX"表示原始数据框的行号,"sY"表示原始数据框的"s1"或"s2"列。 "Seconds" 列在新数据框中被省略,因为它的信息隐含在行号中。
> myNewDf
r1s1 r1s2 r2s1 r2s2 r3s1 r3s2 r4s1 r4s2 r5s1 r5s2
1 0 1 2 3 4 5 6 7 8 9
我怀疑这真的很简单,可能涉及 reshape()
、melt()
、and/or cast()
的某种组合,但正确的咒语让我难以理解。我可以 post 我试过的方法,但我认为这只会分散注意力,让我忽略可能是一个简单的问题?如果有人希望我这样做,请在评论中提问。
理想的解决方案还可以根据原始数据框的列名以某种方式以编程方式生成新的列名,因为列名并不总是相同的。另外,如果这不难,我可以以某种方式同时对相似数据框列表执行相同的操作(行数相同,列名相同,但 s1 和 s2 列中的值不同)?最终我需要一个包含来自多个更简单数据帧的数据的单个数据帧,就像这样...
> myCombinedNewDf # data combined from 4 separate original data frames
r1s1 r1s2 r2s1 r2s2 r3s1 r3s2 r4s1 r4s2 r5s1 r5s2
1 0 1 2 3 4 5 6 7 8 9
2 10 11 12 13 14 15 16 17 18 19
3 20 21 22 23 24 25 26 27 28 29
4 30 31 32 33 34 35 36 37 38 39
您可以从 data.table
的开发版本中尝试 dcast
,即 v1.9.5,它可以包含多个 value.var
列。创建两列,第一列使用 row number
('rn'),第二列使用分组变量 ('grp'),然后使用 dcast
。安装细节是here
library(data.table)#v1.9.5+
dcast(setDT(myDf[-1])[, c('rn1', 'grp') := list(paste0('r', 1:.N), 1)],
grp~rn1, value.var=c('s1', 's2'))
# grp r1_s1 r2_s1 r3_s1 r4_s1 r5_s1 r1_s2 r2_s2 r3_s2 r4_s2 r5_s2
#1: 1 0 2 4 6 8 1 3 5 7 9
或者我们可以使用 base R
reshape
reshape(transform(myDf, rn1=paste0('r', 1:nrow(myDf)), grp=1)[-1],
idvar='grp', timevar='rn1', direction='wide')
# grp s1.r1 s2.r1 s1.r2 s2.r2 s1.r3 s2.r3 s1.r4 s2.r4 s1.r5 s2.r5
#1 1 0 1 2 3 4 5 6 7 8 9
更新
如果我们有多个数据框,我们可以将数据集放在一个列表中,然后使用 lapply
和 dcast
或 rbind 列表中的数据集 rbindlist
指定分组变量对于每个数据集,然后在整个数据集上应用 dcast
。
使用@Alex A. 的 post
中的“myOtherDF” myDFList <- list(myDf, myOtherDF)
dcast(rbindlist(Map(cbind, myDFList, gr=seq_along(myDFList)))[,-1,
with=FALSE][, rn1:= paste0('r', 1:.N), by=gr],
gr~rn1, value.var=c('s1', 's2'))
# gr r1_s1 r2_s1 r3_s1 r4_s1 r5_s1 r1_s2 r2_s2 r3_s2 r4_s2 r5_s2
#1: 1 0 2 4 6 8 1 3 5 7 9
#2: 2 1 3 5 7 9 0 2 4 6 8
使用 reshape2
中的 melt()
,你可以这样做:
library(reshape2)
# Melt the data, omitting `Seconds`
df.melted <- melt(myDF[, -1], id.vars = NULL)
# Transpose the values into a single row
myNewDF <- t(df.melted[, 2])
# Assign new variable names
colnames(myNewDF) <- paste0("r", rownames(myDF), df.melted[, 1])
# r1s1 r2s1 r3s1 r4s1 r5s1 r1s2 r2s2 r3s2 r4s2 r5s2
# 1 0 2 4 6 8 1 3 5 7 9
这会融化数据框,使用第一列(原始数据集中的变量名称)构造新数据集的变量名称,并使用第二列(数据值)的转置作为行数据。
如果您想要一种自动组合数据集的方法,您可以更进一步:
# Another data frame
myOtherDF <- data.frame(Seconds = seq(0, 1, 0.25),
s1 = seq(1, 9, 2),
s2 = seq(0, 8, 2))
# Turn the above steps into a function
colToRow <- function(x) {
melted <- melt(x[, -1], id.vars = NULL)
row <- t(melted[, 2])
colnames(row) <- paste0("r", rownames(x), melted[, 1])
row
}
# Create a list of the data frames to process
myDFList <- list(myDF, myOtherDF)
# Apply our function to each data frame in the list and append
myNewDF <- data.frame(do.call(rbind, lapply(myDFList, colToRow)))
# r1s1 r2s1 r3s1 r4s1 r5s1 r1s2 r2s2 r3s2 r4s2 r5s2
# 1 0 2 4 6 8 1 3 5 7 9
# 2 1 3 5 7 9 0 2 4 6 8
可以使用c(t(therelevantdata))
.
换句话说:
Values <- c(t(myDf[-1]))
如果此时名称很重要,您可以这样做:
Names <- sprintf("r%ss%s", rep(1:5, each = 2), 1:2)
您可以通过以下方式获得命名向量:
setNames(Values, Names)
# r1s1 r1s2 r2s1 r2s2 r3s1 r3s2 r4s1 r4s2 r5s1 r5s2
# 0 1 2 3 4 5 6 7 8 9
或命名的单行 data.frame
具有:
setNames(data.frame(t(Values)), Names)
# r1s1 r1s2 r2s1 r2s2 r3s1 r3s2 r4s1 r4s2 r5s1 r5s2
# 1 0 1 2 3 4 5 6 7 8 9
如果您有 list
个 data.frame
,正如@cyro111 的回答中所分享的那样,您可以轻松地执行以下操作:
do.call(rbind, lapply(myDfList, function(x) c(t(x[-1]))))
# [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
# [1,] 0 1 2 3 4 5 6 7 8 9
# [2,] 10 11 12 13 14 15 16 17 18 19
使用 as.data.frame
转换为 data.frame
,并使用 names <-
或 setNames
添加名称。
泛化为函数:
myFun <- function(indf, asVec = TRUE) {
values <- c(t(indf[-1]))
Names <- sprintf("r%ss%s", rep(1:nrow(indf), each = ncol(indf[-1])),
1:ncol(indf[-1]))
out <- setNames(values, Names)
if (isTRUE(asVec)) out
else (as.data.frame(as.matrix(t(out))))
}
试试看:
myFun(myDf) # Vector
myFun(myDf, FALSE) # data.frame
在 data.frame
的 list
上更方便....有很多选择:-)
dfList1 <- list(
data.frame(s = 1:2, a1 = 1:2, a2 = 3:4, a3 = 5:6),
data.frame(s = 1:2, a1 = 11:12, a2 = 31:32, a3 = 51:52)
)
lapply(dfList1, myFun)
do.call(rbind, lapply(dfList1, myFun))
t(sapply(dfList1, myFun))
as.data.frame(do.call(rbind, lapply(dfList1, myFun)))
基础 R 解决方案
#prepare data
myDf1 = data.frame(Seconds=seq(0,1,.25), s1=seq(0,8,2), s2=seq(1,9,2))
myDf2 = data.frame(Seconds=seq(0,1,.25), s1=seq(10,18,2), s2=seq(11,19,2))
myDfList=list(myDf1,myDf2)
#allocate memory
myCombinedNewDf=data.frame(matrix(NA_integer_,nrow=length(myDfList),ncol=(ncol(myDf1)-1)*nrow(myDf1)))
#reformat
for (idx in 1:length(myDfList)) myCombinedNewDf[idx,]=c(t(myDfList[[idx]][,-1]))
#set colnames
colnames(myCombinedNewDf)=paste0("r",sort(rep.int(1:nrow(myDf1),2)),colnames(myDf1)[-1])
根据请求处理单独因子列的扩展版本:
#allocate memory
#the first column should ultimately be a factor
#I would use a character column first and later change it to type factor
#note the stringsAsFactors option!
myCombinedNewDf=data.frame(rep(NA_character_,length(myDfList)),
matrix(NA_integer_,
nrow=length(myDfList),
ncol=(ncol(myDf1)-1)*nrow(myDf1)),
stringsAsFactors=FALSE)
#reformat
for (idx in 1:length(myDfList)) {
myCombinedNewDf[idx,-1]=c(t(myDfList[[idx]][,-1]))
#I have just made up some criterion to get one "yes" and one "no"
#"yes" if the sum of all values is below 100, "no" otherwise
myCombinedNewDf[idx,1]=if (sum(myDfList[[idx]][,-1])<100) "yes" else "no"
}
#set colnames
colnames(myCombinedNewDf)=c("flag",
paste0("r",
sort(rep.int(1:nrow(myDf1),2)),
colnames(myDf1)[-1])
)
myCombinedNewDf$flag=factor(myCombinedNewDf$flag)
myCombinedNewDf