使用 R 进行数据集成

Data integration using R

我正在尝试通过在 R 中合并两个数据集来集成数据,我想知道我是否可以使用函数 merge() 但我想指定列 在一个结果列中有相同的信息这里是一个例子:

数据集 1 : |名字|姓 |年龄 |眼睛颜色 |

数据集 2 : |FN |姓 |年龄 |性别 |

我想将数据集 1 和数据集 2 合并到一个数据集(数据集 3)中,并指定 "FN" 与 "FirstName" 相同,所以我希望它是一列 所以结果应该是:

数据集 3 : |名字|姓 |年龄 |眼睛颜色 |性别 |

您可以设置相同的列名,然后用它来合并数据。

names(dataset2)[1] = "FirstName"
dataset3 = merge(dataset1, dataset2, by="FirstName")

使用 dplyr 包,您可以通过以下方式做到这一点:

dplyr::inner_join(
x = dataset1, y = dataset2,
by = c("FirstName" = "FN")
)

如果你想通过 FN / FirstName 合并作为公共变量,你可以在一个 dplyr 链中做到 rename 并使用 merge:

dataset3 <- dataset2 %>% 
  rename(FirstName = FN) %>% 
  merge(dataset1, by = "FirstName")