从 dfm 中删除特定单词
Remove specific word from a dfm
来自这个过程
library(stm)
library(tidyr)
library(quanteda)
testDfm <- gadarian$open.ended.response %>%
tokens(remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE) %>%
dfm()
假设我们检查 frq
dftextstat <- textstat_frequency(testDfm)
我们想从 dfm 中删除一些特定的词。根据我们要删除的 dftextstat c("and", "to")
是否有任何方法可以在 dfm 中创建它而无需再次 运行 创建 dfm 的行?
如果您已有 dfm,可以使用 dfm_remove
删除功能。
基于您的示例:
# remove "and" and "to"
testDfm <- dfm_remove(testDfm, c("and", "to"))
最好删除所有停用词:
dfm_remove(testDfm, stopwords("english"))
如果您还有一个令牌对象,您可以以相同的方式使用 tokens_remove
,或者像上面那样在管道中使用。
来自这个过程
library(stm)
library(tidyr)
library(quanteda)
testDfm <- gadarian$open.ended.response %>%
tokens(remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE) %>%
dfm()
假设我们检查 frq
dftextstat <- textstat_frequency(testDfm)
我们想从 dfm 中删除一些特定的词。根据我们要删除的 dftextstat c("and", "to")
是否有任何方法可以在 dfm 中创建它而无需再次 运行 创建 dfm 的行?
如果您已有 dfm,可以使用 dfm_remove
删除功能。
基于您的示例:
# remove "and" and "to"
testDfm <- dfm_remove(testDfm, c("and", "to"))
最好删除所有停用词:
dfm_remove(testDfm, stopwords("english"))
如果您还有一个令牌对象,您可以以相同的方式使用 tokens_remove
,或者像上面那样在管道中使用。