清理语料库后的 TermDocumentMatrix 错误
TermDocumentMatrix Error after Cleaning Corpus
我的问题是我想将我的语料库传递给 tm 函数 termdocumentmatrix() 但它失败并显示错误:Error in UseMethod("meta", x): no applicable method for meta' applied to an object of class "character"
.
首先,我有一个名为“auth”的数据框,如下所示:
Author
Messages
014588
Hi; How are you
123341
Hello; Fine u?
857635
The weather is fine; It looks Sunny; There are some clouds
作者不言自明,留言都是特定作者所写。不同的消息由分号分隔。
将数据帧转换为语料库并清理它的代码如下所示:
auth_text <- auth$messages
auth_text2 <- replace_abbreviation(auth_text)
auth_source <- VectorSource(auth_text2)
auth_corp <- VCorpus(auth_source)
clean_corpus <- function(corpus) {
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, PlainTextDocument)
corpus <- tm_map(corpus, removeWords, new_stop)
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, bracketX)
return(corpus)
}
clean_corp <- clean_corpus(auth_corp)
清理语料库后,应通过以下方式处理:
corp_tdm <- TermDocumentMatrix(clean_corp)
启动命令后,如上所述弹出错误消息。我什至不能再查看语料库了。谁能帮我解决这个问题?
正在删除
corpus <- tm_map(corpus, bracketX)
完成了工作,代码现在可以正常运行了
我的问题是我想将我的语料库传递给 tm 函数 termdocumentmatrix() 但它失败并显示错误:Error in UseMethod("meta", x): no applicable method for meta' applied to an object of class "character"
.
首先,我有一个名为“auth”的数据框,如下所示:
Author | Messages |
---|---|
014588 | Hi; How are you |
123341 | Hello; Fine u? |
857635 | The weather is fine; It looks Sunny; There are some clouds |
作者不言自明,留言都是特定作者所写。不同的消息由分号分隔。 将数据帧转换为语料库并清理它的代码如下所示:
auth_text <- auth$messages
auth_text2 <- replace_abbreviation(auth_text)
auth_source <- VectorSource(auth_text2)
auth_corp <- VCorpus(auth_source)
clean_corpus <- function(corpus) {
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, PlainTextDocument)
corpus <- tm_map(corpus, removeWords, new_stop)
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, bracketX)
return(corpus)
}
clean_corp <- clean_corpus(auth_corp)
清理语料库后,应通过以下方式处理:
corp_tdm <- TermDocumentMatrix(clean_corp)
启动命令后,如上所述弹出错误消息。我什至不能再查看语料库了。谁能帮我解决这个问题?
正在删除
corpus <- tm_map(corpus, bracketX)
完成了工作,代码现在可以正常运行了