一列中的唯一单词总数 - R

Total unique words in a column - R

我对计算列中出现的唯一单词感兴趣。 而不是像 中解释的那样每行获取唯一的单词 我有兴趣获得一个计算该列中所有唯一条目的答案。 在以下示例中,唯一国家/地区总数为 3: 中国 澳大利亚和 韩国

有没有捷径可以得到这笔款项? 我还在学习R所以知识有限

Countries

China  Australia

Australia

China China 

Korea Korea Korea Korea

我们可以通过space、unlistsplit列'Countries',得到unique个字[=18]的length =]

length(unique(unlist(strsplit(df1$Countries, " "))))
#[1] 3

或使用tidyverse

library(tidyverse)
df1 %>% 
    separate_rows(Countries) %>% 
    distinct() %>%
    nrow
#[1] 3

数据

df1 <- structure(list(Countries = c("China Australia", "Australia", 
 "China China", "Korea Korea Korea Korea")), .Names = "Countries",
  class = "data.frame", row.names = c(NA, -4L))

这基于您提供的数据模式:

length(unique(unlist(str_split(data$Countries, ' '))))
df %>% 
   separate_rows(col,sep=",") %>% 
   count(col)