使用 R 进行数据集成
Data integration using R
我正在尝试通过在 R 中合并两个数据集来集成数据,我想知道我是否可以使用函数 merge() 但我想指定列 在一个结果列中有相同的信息这里是一个例子:
数据集 1 :
|名字|姓 |年龄 |眼睛颜色 |
数据集 2 :
|FN |姓 |年龄 |性别 |
我想将数据集 1 和数据集 2 合并到一个数据集(数据集 3)中,并指定 "FN" 与 "FirstName" 相同,所以我希望它是一列
所以结果应该是:
数据集 3 :
|名字|姓 |年龄 |眼睛颜色 |性别 |
您可以设置相同的列名,然后用它来合并数据。
names(dataset2)[1] = "FirstName"
dataset3 = merge(dataset1, dataset2, by="FirstName")
使用 dplyr 包,您可以通过以下方式做到这一点:
dplyr::inner_join(
x = dataset1, y = dataset2,
by = c("FirstName" = "FN")
)
如果你想通过 FN / FirstName 合并作为公共变量,你可以在一个 dplyr
链中做到 rename
并使用 merge
:
dataset3 <- dataset2 %>%
rename(FirstName = FN) %>%
merge(dataset1, by = "FirstName")
我正在尝试通过在 R 中合并两个数据集来集成数据,我想知道我是否可以使用函数 merge() 但我想指定列 在一个结果列中有相同的信息这里是一个例子:
数据集 1 : |名字|姓 |年龄 |眼睛颜色 |
数据集 2 : |FN |姓 |年龄 |性别 |
我想将数据集 1 和数据集 2 合并到一个数据集(数据集 3)中,并指定 "FN" 与 "FirstName" 相同,所以我希望它是一列 所以结果应该是:
数据集 3 : |名字|姓 |年龄 |眼睛颜色 |性别 |
您可以设置相同的列名,然后用它来合并数据。
names(dataset2)[1] = "FirstName"
dataset3 = merge(dataset1, dataset2, by="FirstName")
使用 dplyr 包,您可以通过以下方式做到这一点:
dplyr::inner_join(
x = dataset1, y = dataset2,
by = c("FirstName" = "FN")
)
如果你想通过 FN / FirstName 合并作为公共变量,你可以在一个 dplyr
链中做到 rename
并使用 merge
:
dataset3 <- dataset2 %>%
rename(FirstName = FN) %>%
merge(dataset1, by = "FirstName")