分组词频
Grouping word frequency
我正在尝试给我的社会政策案例发短信。每个案例都是连续的,我想知道我的案例中有多少提到了 Universal Credit 或一些新的未知问题。我从词频开始。
我已经将我的数据转换成这种格式了。基本上 ID 取值 1,2 或 3,因为有三个案例研究。 Word取dog或cat的值。
dd <- read.table(text="ID Word
1 dog
1 cat
2 cat
2 cat
3 cat", header=TRUE)
我想计算每个单词的唯一 ID,即有三个案例研究提到了猫
Word Count
cat 3
dog 1
我什至不确定这现在是文本挖掘问题还是一些基本的组或计数问题。
我认为您可以通过简单的 dplyr 调用来完成此操作。例如
library(dplyr)
dd %>% group_by(Word) %>% summarize(Count=n_distinct(ID))
# Word Count
# <fct> <int>
# 1 cat 3
# 2 dog 1
使用基础 R 而不是包,
as.data.frame(table(dd$Word))
我正在尝试给我的社会政策案例发短信。每个案例都是连续的,我想知道我的案例中有多少提到了 Universal Credit 或一些新的未知问题。我从词频开始。
我已经将我的数据转换成这种格式了。基本上 ID 取值 1,2 或 3,因为有三个案例研究。 Word取dog或cat的值。
dd <- read.table(text="ID Word
1 dog
1 cat
2 cat
2 cat
3 cat", header=TRUE)
我想计算每个单词的唯一 ID,即有三个案例研究提到了猫
Word Count
cat 3
dog 1
我什至不确定这现在是文本挖掘问题还是一些基本的组或计数问题。
我认为您可以通过简单的 dplyr 调用来完成此操作。例如
library(dplyr)
dd %>% group_by(Word) %>% summarize(Count=n_distinct(ID))
# Word Count
# <fct> <int>
# 1 cat 3
# 2 dog 1
使用基础 R 而不是包,
as.data.frame(table(dd$Word))