用 R 中的新数据集(具有相同名称的列)的值替换列中的 NA
replace NAs in columns with values of new data set (that has identically named columns) in R
我有两个数据集(data2012 和 data2013),它们共享一些相同名称的行 (ID) 和列(个别特征、数字和度量)。 Data2012 在 data2013 具有 NA 的行中具有值,反之亦然。
如果行名(ID)和列名(个别特征)相同,我想用data2013中的相应值替换data2012中的NA。如果 data2012 有 NA 且 data2013 有值,我只想用 data2013 替换 data2012。
(由于这两个数据集有超过 200 个同名列,我无法在代码中单独列出每一列。此外,这些列的顺序也不相同。我需要一个利用以下事实的代码需要替换值的列和行具有完全相同的名称。)
我理想的最终产品: 一个数据集,每个 ID(行)都有一些来自 data2012 的特征(列),一些来自 data2013 和一些剩余的 NA(如果两者都数据集没有相应的值)。
data2012
x2 x4 x5 x6 x7 x9
id1 NA NA 2 NA 4 NA
id2 1 NA NA NA NA 1
id5 NA 3 5 NA NA NA
id6 NA NA NA NA NA NA
data2013(在id2和id6中有额外的信息)
x2 x4 x5 x7
id2 NA NA 4 NA
id3 1 NA 2 NA
id4 NA 9 NA 5
id6 1 NA 2 8
理想的最终产品
x2 x4 x5 x6 x7 x9
id1 NA NA 2 NA 4 NA
id2 1 NA 4 NA NA 1
id5 NA 3 5 NA NA NA
id6 1 NA 2 NA 8 NA
希望大家能帮帮我。谢谢!
我们可以使用match
获取相应数据集的column/row索引,对数据集进行子集化,然后将一个的值赋值给另一个
j1 <- match(colnames(data2012), colnames(data2013), nomatch=0)
j2 <- match(colnames(data2013), colnames(data2012), nomatch=0)
i1 <- match(rownames(data2012), rownames(data2013), nomatch=0)
i2 <- match(rownames(data2013), rownames(data2012), nomatch=0)
m1 <- do.call(pmax, c(list(as.matrix(data2012[i2,j2]),
as.matrix(data2013[i1,j1])), list(na.rm=TRUE)))
data2012[i2,j2] <- m1
data2012
# x2 x4 x5 x6 x7 x9
#id1 NA NA 2 NA 4 NA
#id2 1 NA 4 NA NA 1
#id5 NA 3 5 NA NA NA
#id6 1 NA 2 NA 8 NA
数据
data2012 <- structure(list(x2 = c(NA, 1L, NA, NA),
x4 = c(NA, NA, 3L, NA),
x5 = c(2L, NA, 5L, NA), x6 = c(NA, NA, NA, NA), x7 = c(4L,
NA, NA, NA), x9 = c(NA, 1L, NA, NA)), .Names = c("x2", "x4",
"x5", "x6", "x7", "x9"), class = "data.frame",
row.names = c("id1", "id2", "id5", "id6"))
data2013 <- structure(list(x2 = c(NA, 1L, NA, 1L),
x4 = c(NA, NA, 9L, NA),
x5 = c(4L, 2L, NA, 2L), x7 = c(NA, NA, 5L, 8L)), .Names = c("x2",
"x4", "x5", "x7"), class = "data.frame",
row.names = c("id2", "id3", "id4", "id6"))
我有两个数据集(data2012 和 data2013),它们共享一些相同名称的行 (ID) 和列(个别特征、数字和度量)。 Data2012 在 data2013 具有 NA 的行中具有值,反之亦然。
如果行名(ID)和列名(个别特征)相同,我想用data2013中的相应值替换data2012中的NA。如果 data2012 有 NA 且 data2013 有值,我只想用 data2013 替换 data2012。
(由于这两个数据集有超过 200 个同名列,我无法在代码中单独列出每一列。此外,这些列的顺序也不相同。我需要一个利用以下事实的代码需要替换值的列和行具有完全相同的名称。)
我理想的最终产品: 一个数据集,每个 ID(行)都有一些来自 data2012 的特征(列),一些来自 data2013 和一些剩余的 NA(如果两者都数据集没有相应的值)。
data2012
x2 x4 x5 x6 x7 x9
id1 NA NA 2 NA 4 NA
id2 1 NA NA NA NA 1
id5 NA 3 5 NA NA NA
id6 NA NA NA NA NA NA
data2013(在id2和id6中有额外的信息)
x2 x4 x5 x7
id2 NA NA 4 NA
id3 1 NA 2 NA
id4 NA 9 NA 5
id6 1 NA 2 8
理想的最终产品
x2 x4 x5 x6 x7 x9
id1 NA NA 2 NA 4 NA
id2 1 NA 4 NA NA 1
id5 NA 3 5 NA NA NA
id6 1 NA 2 NA 8 NA
希望大家能帮帮我。谢谢!
我们可以使用match
获取相应数据集的column/row索引,对数据集进行子集化,然后将一个的值赋值给另一个
j1 <- match(colnames(data2012), colnames(data2013), nomatch=0)
j2 <- match(colnames(data2013), colnames(data2012), nomatch=0)
i1 <- match(rownames(data2012), rownames(data2013), nomatch=0)
i2 <- match(rownames(data2013), rownames(data2012), nomatch=0)
m1 <- do.call(pmax, c(list(as.matrix(data2012[i2,j2]),
as.matrix(data2013[i1,j1])), list(na.rm=TRUE)))
data2012[i2,j2] <- m1
data2012
# x2 x4 x5 x6 x7 x9
#id1 NA NA 2 NA 4 NA
#id2 1 NA 4 NA NA 1
#id5 NA 3 5 NA NA NA
#id6 1 NA 2 NA 8 NA
数据
data2012 <- structure(list(x2 = c(NA, 1L, NA, NA),
x4 = c(NA, NA, 3L, NA),
x5 = c(2L, NA, 5L, NA), x6 = c(NA, NA, NA, NA), x7 = c(4L,
NA, NA, NA), x9 = c(NA, 1L, NA, NA)), .Names = c("x2", "x4",
"x5", "x6", "x7", "x9"), class = "data.frame",
row.names = c("id1", "id2", "id5", "id6"))
data2013 <- structure(list(x2 = c(NA, 1L, NA, 1L),
x4 = c(NA, NA, 9L, NA),
x5 = c(4L, 2L, NA, 2L), x7 = c(NA, NA, 5L, 8L)), .Names = c("x2",
"x4", "x5", "x7"), class = "data.frame",
row.names = c("id2", "id3", "id4", "id6"))