R 中的 group_by() 和 unique() 都是 return 重复项

Question

我有一份样品清单。每个样本都有一个原产国。有一栏是国家。

我运行下面的代码：

country_counts <- metadata %>% 
  group_by(country) %>% 
  count()

对于 192 个国家/地区，这有效。然而，罗马尼亚是重复的。我已尽我所能解决此问题。我已经删除了空格，我使用了 str_replace。我仍然留下了副本。当我使用 str_replace 并替换为“apple”时，我剩下两个“apple”变量。我不知道还有什么可做的。我也试过复制列并复制整个数据库。仍然没有对我有用。有什么建议吗？

Answer 1

我的猜测是字符串中的字符有问题。看起来一样但是是不同的 unicode 字符。我的快速而肮脏的解决方案是使用 str_detect 替换所有类似罗马尼亚的字符串。

metadata$country[str_detect(metadata$country, "Ro")] <- "Romania"

您必须调整 str_detect 中的模式以使其适用于您的特定情况。

R 中的 group_by() 和 unique() 都是 return 重复项

group_by() and unique() in R both return a duplicate

r

stringr

dplyr

tidyr