在 R 中添加更多停用词

Adding more stop words in R

目前,我正在使用 R 中的函数 CreateDtm() 来拟合 LDA 模型。除了默认停用词外,我想添加我自己应该删除的词。

library(textmineR)
myStopwords <- c("aa", "bb")
dtm <- CreateDtm(doc_vec = data$text,doc_names = data$id,
              stopword_vec = c(stopwords::stopwords("en"),
              stopwords::stopwords(source = "smart"))

谁能帮我在上面的代码中添加我自己的停用词?谢谢!

只需将您自己的列表添加到现有停用词列表中即可。您已经在组合两个停用词列表。您可以毫无问题地添加到第三个:

library(textmineR)
myStopwords <- c("aa", "bb")
dtm <- CreateDtm(doc_vec = data$text,doc_names = data$id,
              stopword_vec = c(stopwords::stopwords("en"),
              stopwords::stopwords(source = "smart"), myStopwords))