一列中的唯一单词总数 - R

Question

我对计算列中出现的唯一单词感兴趣。而不是像中解释的那样每行获取唯一的单词我有兴趣获得一个计算该列中所有唯一条目的答案。在以下示例中，唯一国家/地区总数为 3：中国澳大利亚和韩国

有没有捷径可以得到这笔款项？我还在学习R所以知识有限

Countries

China  Australia

Australia

China China 

Korea Korea Korea Korea

Answer 1

我们可以通过space、unlistsplit列'Countries'，得到unique个字[=18]的length =]

length(unique(unlist(strsplit(df1$Countries, " "))))
#[1] 3

或使用tidyverse

library(tidyverse)
df1 %>% 
    separate_rows(Countries) %>% 
    distinct() %>%
    nrow
#[1] 3

数据

df1 <- structure(list(Countries = c("China Australia", "Australia", 
 "China China", "Korea Korea Korea Korea")), .Names = "Countries",
  class = "data.frame", row.names = c(NA, -4L))

Answer 2

这基于您提供的数据模式：

length(unique(unlist(str_split(data$Countries, ' '))))

Answer 3

df %>% 
   separate_rows(col,sep=",") %>% 
   count(col)

一列中的唯一单词总数 - R

Total unique words in a column - R

r

sum

strsplit

数据