如何在R(TextMining)的数据框中获取字符串,以及字符串对整个单词的计数

How to get the string, and the string count whole word in the data frame in R (TextMining)

想要在数据框中的 r 中获取带有计数的字符串

数据集是这样的:

No Str

1 "I like travelling in Australia."

2 "I like travelling is America."

结果应该是这样的:

No Str count

1 I 1

1 like 1

1 to 1

1 travelling 1

1 in 1

1 Australia 1

2 I 1

2 like 1

2 to 1

2 travelling 1

2 in 1

2 America 1

我试过使用拆分第一行并且它有效但它不能计算整个单词

strsplit(data[1,2], " "))

谁能帮我做那个结果?

您可以使用separate_rows获取不同行中的每个单词并使用count计算每个No中的词频。

library(dplyr)
library(tidyr)

result <- data %>% separate_rows(Str, sep = '\s') %>% count(No, Str)

strsplit

拆分列后,我们可以使用 base R 中的 table
table(stack(setNames(strsplit(df1$Str, '\s+'), df1$No))[2:1])

数据

df1 <- structure(list(No = 1:2, Str = c("I like travelling in Australia.", 
"I like travelling is America.")), class = "data.frame", row.names = c(NA, 
-2L))