分组词频

Question

我正在尝试给我的社会政策案例发短信。每个案例都是连续的，我想知道我的案例中有多少提到了 Universal Credit 或一些新的未知问题。我从词频开始。

我已经将我的数据转换成这种格式了。基本上 ID 取值 1,2 或 3，因为有三个案例研究。 Word取dog或cat的值。

dd <- read.table(text="ID       Word
1   dog
1   cat
2   cat
2   cat
3   cat", header=TRUE)

我想计算每个单词的唯一 ID，即有三个案例研究提到了猫

Word Count
cat      3
dog      1

我什至不确定这现在是文本挖掘问题还是一些基本的组或计数问题。

Answer 1

我认为您可以通过简单的 dplyr 调用来完成此操作。例如

library(dplyr)
dd %>% group_by(Word) %>% summarize(Count=n_distinct(ID))
#   Word  Count
#    <fct> <int>
# 1 cat       3
# 2 dog       1

Answer 2

使用基础 R 而不是包，

as.data.frame(table(dd$Word))

Grouping word frequency