stm 功能不会停止 运行?
stm function won't stop running?
我正在尝试 运行 一些文档的结构化主题模型,但我无法让 stm 完成,即使是一个微不足道的文档子集(我总共有大约 5000 个文档,但我子集到前 20 个只是为了测试代码)。在这个 stm 中,我什至没有尝试包括协变量。我有一个使用 LDA 完成的文本分析版本,我只是想确认在使用不带协变量的 stm 时结果是否相似。当我 运行 下面的代码时,我在控制台上收到这条消息并且它没有改变:
Beginning Spectral Initialization
Calculating the gram matrix...
Finding anchor words...
..........
Recovering initialization...
..
Initialization complete.
我不得不完全关闭 R 以使其退出 运行ning。这是代码:
test<- files[1:20, ] #the first 20 documents
met<- mytab[1:20,] #the first 20 rows of the df with the metadata for each document
corp<- corpus(test, text_field = "text")
dfm <- dfm(tokens(corp, remove_punct=TRUE),
tolower=TRUE, stem=TRUE, remove_numbers = TRUE,
remove=(c(stopwords("english"), 's', '$')))
dfm2<-dfm_subset(dfm, ntoken(dfm)>0)
# use quanteda converter to convert our Dfm
stmdfm <- convert(dfm2, to = "stm", docvars = met)
plotRemoved(stmdfm$documents, lower.thresh = seq(1, 80, by = 20))
out <- prepDocuments(stmdfm$documents, stmdfm$vocab, stmdfm$meta, lower.thresh = 3)
k <- 10
stmFit <- stm(out$documents,
out$vocab,
K = k,
max.em.its = 150,
data = out$meta,
init.type = "Spectral",
seed = 300)
有没有想过为什么这段代码不会产生结果?我预计 stm() 需要一段时间,但我已将此 运行ning 留在仅 20 个文档(每个文档在 txt 文件中平均只有几百个单词)超过 30 分钟而没有结果。
非常简单的答案是从头开始重新安装 Rcpp 包:
install.packages("Rcpp")
library(Rcpp)
我正在尝试 运行 一些文档的结构化主题模型,但我无法让 stm 完成,即使是一个微不足道的文档子集(我总共有大约 5000 个文档,但我子集到前 20 个只是为了测试代码)。在这个 stm 中,我什至没有尝试包括协变量。我有一个使用 LDA 完成的文本分析版本,我只是想确认在使用不带协变量的 stm 时结果是否相似。当我 运行 下面的代码时,我在控制台上收到这条消息并且它没有改变:
Beginning Spectral Initialization
Calculating the gram matrix...
Finding anchor words...
..........
Recovering initialization...
..
Initialization complete.
我不得不完全关闭 R 以使其退出 运行ning。这是代码:
test<- files[1:20, ] #the first 20 documents
met<- mytab[1:20,] #the first 20 rows of the df with the metadata for each document
corp<- corpus(test, text_field = "text")
dfm <- dfm(tokens(corp, remove_punct=TRUE),
tolower=TRUE, stem=TRUE, remove_numbers = TRUE,
remove=(c(stopwords("english"), 's', '$')))
dfm2<-dfm_subset(dfm, ntoken(dfm)>0)
# use quanteda converter to convert our Dfm
stmdfm <- convert(dfm2, to = "stm", docvars = met)
plotRemoved(stmdfm$documents, lower.thresh = seq(1, 80, by = 20))
out <- prepDocuments(stmdfm$documents, stmdfm$vocab, stmdfm$meta, lower.thresh = 3)
k <- 10
stmFit <- stm(out$documents,
out$vocab,
K = k,
max.em.its = 150,
data = out$meta,
init.type = "Spectral",
seed = 300)
有没有想过为什么这段代码不会产生结果?我预计 stm() 需要一段时间,但我已将此 运行ning 留在仅 20 个文档(每个文档在 txt 文件中平均只有几百个单词)超过 30 分钟而没有结果。
非常简单的答案是从头开始重新安装 Rcpp 包:
install.packages("Rcpp")
library(Rcpp)