在 R 中使用 tm 包创建 TermDocumentMatrix 时出错

Error in creating TermDocumentMatrix using tm package in R

我无法在 R 中使用 tm 包创建术语文档矩阵,当我尝试从预处理的语料库中创建一个时会抛出以下错误。

Error in UseMethod("TermDocumentMatrix", x) : 
  no applicable method for 'TermDocumentMatrix' applied to an object of class 
"character"

下面是我正在使用的脚本。我正在使用 R v3.4.1 和 tm 包 v0.7-1。

data <- readLines("Data/en_US/en_US_sample.txt", n = 100)
data <- Corpus(VectorSource(data))
data <- tm_map(data, removePunctuation)
data <- tm_map(data, removeNumbers)
data <- tm_map(data, content_transformer(tolower))
data <- tm_map(data, removeWords, stopwords("en"))
data <- tm_map(data, stripWhitespace)
words <- TermDocumentMatrix("data")

我认为 TermDocumentMatrix 要求语料库采用某种指定的文本文档格式,因此我尝试使用 tm_map 将我的语料库强制转换为 PlainTextDocument,但这并没有解决问题。当我在 VectorSource 上使用 Corpus 加载我的文本数据时,创建的对象将 class 显示为 SimpleCorpus 这可能是问题所在,但我不完全确定。

如有任何帮助,我们将不胜感激。谢谢!

你做的一切都正确,只是在你的最后一行你不小心将一个字符 "data"(注意引号)传递给函数 TermDocumentMatrix() 而不是对象 data