如何在R(TextMining)的数据框中获取字符串,以及字符串对整个单词的计数
How to get the string, and the string count whole word in the data frame in R (TextMining)
想要在数据框中的 r 中获取带有计数的字符串
数据集是这样的:
No Str
1 "I like travelling in Australia."
2 "I like travelling is America."
结果应该是这样的:
No Str count
1 I 1
1 like 1
1 to 1
1 travelling 1
1 in 1
1 Australia 1
2 I 1
2 like 1
2 to 1
2 travelling 1
2 in 1
2 America 1
我试过使用拆分第一行并且它有效但它不能计算整个单词
strsplit(data[1,2], " "))
谁能帮我做那个结果?
您可以使用separate_rows
获取不同行中的每个单词并使用count
计算每个No
中的词频。
library(dplyr)
library(tidyr)
result <- data %>% separate_rows(Str, sep = '\s') %>% count(No, Str)
用 strsplit
拆分列后,我们可以使用 base R
中的 table
table(stack(setNames(strsplit(df1$Str, '\s+'), df1$No))[2:1])
数据
df1 <- structure(list(No = 1:2, Str = c("I like travelling in Australia.",
"I like travelling is America.")), class = "data.frame", row.names = c(NA,
-2L))
想要在数据框中的 r 中获取带有计数的字符串
数据集是这样的:
No Str
1 "I like travelling in Australia."
2 "I like travelling is America."
结果应该是这样的:
No Str count
1 I 1
1 like 1
1 to 1
1 travelling 1
1 in 1
1 Australia 1
2 I 1
2 like 1
2 to 1
2 travelling 1
2 in 1
2 America 1
我试过使用拆分第一行并且它有效但它不能计算整个单词
strsplit(data[1,2], " "))
谁能帮我做那个结果?
您可以使用separate_rows
获取不同行中的每个单词并使用count
计算每个No
中的词频。
library(dplyr)
library(tidyr)
result <- data %>% separate_rows(Str, sep = '\s') %>% count(No, Str)
用 strsplit
base R
中的 table
table(stack(setNames(strsplit(df1$Str, '\s+'), df1$No))[2:1])
数据
df1 <- structure(list(No = 1:2, Str = c("I like travelling in Australia.",
"I like travelling is America.")), class = "data.frame", row.names = c(NA,
-2L))