R 中的主题建模
Topic Modelling in R
我正在根据 public 评论数据创建相关主题模型,但出现了一个相当奇怪的错误。
当我在我的 CTM 上调用 terms(ctm1, 5) 时,我得到的是文档的名称,而不是每个主题的前 5 个术语。
更详细我运行,
library(topicmodels)
library(data.table)
library(tm)
a <-Corpus(DirSource("~/text", encoding="UTF-8"), readerControl =
list(language="lat"))
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english"))
a <- tm_map(a, stemDocument, language = "english")
adtm <-TermDocumentMatrix(a)
adtm <- removeSparseTerms(adtm, 0.75)
ctm1 <- CTM(adtm, 30, method = "VEM", control = NULL, model = NULL)
terms(ctm1, 5)
返回
terms(ctm1)
Topic 1 "cmnt656661.txt"
(等等)
我们无法确定,因为您没有提供数据;但很可能您没有正确导入文件。参见?DirSource
(我强调的):
directory : A character vector of full path names; the default
corresponds to the working directory getwd().
在你的情况下,你似乎应该这样做:
a <- Corpus(DirSource(list.files("~/text", full.names = TRUE)))
我正在根据 public 评论数据创建相关主题模型,但出现了一个相当奇怪的错误。
当我在我的 CTM 上调用 terms(ctm1, 5) 时,我得到的是文档的名称,而不是每个主题的前 5 个术语。
更详细我运行,
library(topicmodels)
library(data.table)
library(tm)
a <-Corpus(DirSource("~/text", encoding="UTF-8"), readerControl =
list(language="lat"))
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english"))
a <- tm_map(a, stemDocument, language = "english")
adtm <-TermDocumentMatrix(a)
adtm <- removeSparseTerms(adtm, 0.75)
ctm1 <- CTM(adtm, 30, method = "VEM", control = NULL, model = NULL)
terms(ctm1, 5)
返回
terms(ctm1)
Topic 1 "cmnt656661.txt"
(等等)
我们无法确定,因为您没有提供数据;但很可能您没有正确导入文件。参见?DirSource
(我强调的):
directory : A character vector of full path names; the default corresponds to the working directory getwd().
在你的情况下,你似乎应该这样做:
a <- Corpus(DirSource(list.files("~/text", full.names = TRUE)))