如何删除数据框字符串中的特定术语？

Question

   df <- dataframe$Data %>%
      na.omit() %>%
      tolower() %>%
      strsplit(split = " ") %>% 
      unlist() %>%
      table() %>%
      sort(decreasing = TRUE)

嘿伙计们，我正在使用这些函数来获取词频列表（我正在处理一个巨大的文本），但我得到的是重复的词，如“banana”、“banana.”、“banana?”等等，他们是分开计算的。我如何删除点、审讯和其他正确求和香蕉？谢谢！！！

Answer 1

尝试使用：

df <- dataframe$Data %>%
  na.omit() %>%
  tolower() %>%
  strsplit(split = " ") %>% 
  unlist() %>%
  gsub('[[:punct:]]', '', .) %>%
  table() %>%
  sort(decreasing = TRUE)

如何删除数据框字符串中的特定术语？

How do i remove a specific term in my dataframe string?

r

word-frequency