R 中的 group_by() 和 unique() 都是 return 重复项

group_by() and unique() in R both return a duplicate

我有一份样品清单。每个样本都有一个原产国。有一栏是国家。

我运行下面的代码:

country_counts <- metadata %>% 
  group_by(country) %>% 
  count()

对于 192 个国家/地区,这有效。然而,罗马尼亚是重复的。我已尽我所能解决此问题。我已经删除了空格,我使用了 str_replace。我仍然留下了副本。当我使用 str_replace 并替换为“apple”时,我剩下两个“apple”变量。我不知道还有什么可做的。我也试过复制列并复制整个数据库。仍然没有对我有用。有什么建议吗?

我的猜测是字符串中的字符有问题。看起来一样但是是不同的 unicode 字符。 我的快速而肮脏的解决方案是使用 str_detect 替换所有类似罗马尼亚的字符串。

metadata$country[str_detect(metadata$country, "Ro")] <- "Romania"

您必须调整 str_detect 中的模式以使其适用于您的特定情况。