如何删除数据框字符串中的特定术语?
How do i remove a specific term in my dataframe string?
df <- dataframe$Data %>%
na.omit() %>%
tolower() %>%
strsplit(split = " ") %>%
unlist() %>%
table() %>%
sort(decreasing = TRUE)
嘿伙计们,我正在使用这些函数来获取词频列表(我正在处理一个巨大的文本),但我得到的是重复的词,如“banana”、“banana.”、“banana?”等等,他们是分开计算的。我如何删除点、审讯和其他正确求和香蕉?谢谢!!!
尝试使用:
df <- dataframe$Data %>%
na.omit() %>%
tolower() %>%
strsplit(split = " ") %>%
unlist() %>%
gsub('[[:punct:]]', '', .) %>%
table() %>%
sort(decreasing = TRUE)
df <- dataframe$Data %>%
na.omit() %>%
tolower() %>%
strsplit(split = " ") %>%
unlist() %>%
table() %>%
sort(decreasing = TRUE)
嘿伙计们,我正在使用这些函数来获取词频列表(我正在处理一个巨大的文本),但我得到的是重复的词,如“banana”、“banana.”、“banana?”等等,他们是分开计算的。我如何删除点、审讯和其他正确求和香蕉?谢谢!!!
尝试使用:
df <- dataframe$Data %>%
na.omit() %>%
tolower() %>%
strsplit(split = " ") %>%
unlist() %>%
gsub('[[:punct:]]', '', .) %>%
table() %>%
sort(decreasing = TRUE)