一列中的唯一单词总数 - R
Total unique words in a column - R
我对计算列中出现的唯一单词感兴趣。
而不是像 中解释的那样每行获取唯一的单词
我有兴趣获得一个计算该列中所有唯一条目的答案。
在以下示例中,唯一国家/地区总数为 3:
中国
澳大利亚和
韩国
有没有捷径可以得到这笔款项?
我还在学习R所以知识有限
Countries
China Australia
Australia
China China
Korea Korea Korea Korea
我们可以通过space、unlist
split
列'Countries',得到unique
个字[=18]的length
=]
length(unique(unlist(strsplit(df1$Countries, " "))))
#[1] 3
或使用tidyverse
library(tidyverse)
df1 %>%
separate_rows(Countries) %>%
distinct() %>%
nrow
#[1] 3
数据
df1 <- structure(list(Countries = c("China Australia", "Australia",
"China China", "Korea Korea Korea Korea")), .Names = "Countries",
class = "data.frame", row.names = c(NA, -4L))
这基于您提供的数据模式:
length(unique(unlist(str_split(data$Countries, ' '))))
df %>%
separate_rows(col,sep=",") %>%
count(col)
我对计算列中出现的唯一单词感兴趣。
而不是像
有没有捷径可以得到这笔款项? 我还在学习R所以知识有限
Countries
China Australia
Australia
China China
Korea Korea Korea Korea
我们可以通过space、unlist
split
列'Countries',得到unique
个字[=18]的length
=]
length(unique(unlist(strsplit(df1$Countries, " "))))
#[1] 3
或使用tidyverse
library(tidyverse)
df1 %>%
separate_rows(Countries) %>%
distinct() %>%
nrow
#[1] 3
数据
df1 <- structure(list(Countries = c("China Australia", "Australia",
"China China", "Korea Korea Korea Korea")), .Names = "Countries",
class = "data.frame", row.names = c(NA, -4L))
这基于您提供的数据模式:
length(unique(unlist(str_split(data$Countries, ' '))))
df %>%
separate_rows(col,sep=",") %>%
count(col)