R 中的 group_by() 和 unique() 都是 return 重复项
group_by() and unique() in R both return a duplicate
我有一份样品清单。每个样本都有一个原产国。有一栏是国家。
我运行下面的代码:
country_counts <- metadata %>%
group_by(country) %>%
count()
对于 192 个国家/地区,这有效。然而,罗马尼亚是重复的。我已尽我所能解决此问题。我已经删除了空格,我使用了 str_replace。我仍然留下了副本。当我使用 str_replace 并替换为“apple”时,我剩下两个“apple”变量。我不知道还有什么可做的。我也试过复制列并复制整个数据库。仍然没有对我有用。有什么建议吗?
我的猜测是字符串中的字符有问题。看起来一样但是是不同的 unicode 字符。
我的快速而肮脏的解决方案是使用 str_detect
替换所有类似罗马尼亚的字符串。
metadata$country[str_detect(metadata$country, "Ro")] <- "Romania"
您必须调整 str_detect
中的模式以使其适用于您的特定情况。
我有一份样品清单。每个样本都有一个原产国。有一栏是国家。
我运行下面的代码:
country_counts <- metadata %>%
group_by(country) %>%
count()
对于 192 个国家/地区,这有效。然而,罗马尼亚是重复的。我已尽我所能解决此问题。我已经删除了空格,我使用了 str_replace。我仍然留下了副本。当我使用 str_replace 并替换为“apple”时,我剩下两个“apple”变量。我不知道还有什么可做的。我也试过复制列并复制整个数据库。仍然没有对我有用。有什么建议吗?
我的猜测是字符串中的字符有问题。看起来一样但是是不同的 unicode 字符。
我的快速而肮脏的解决方案是使用 str_detect
替换所有类似罗马尼亚的字符串。
metadata$country[str_detect(metadata$country, "Ro")] <- "Romania"
您必须调整 str_detect
中的模式以使其适用于您的特定情况。