stm 功能不会停止 运行?

stm function won't stop running?

我正在尝试 运行 一些文档的结构化主题模型,但我无法让 stm 完成,即使是一个微不足道的文档子集(我总共有大约 5000 个文档,但我子集到前 20 个只是为了测试代码)。在这个 stm 中,我什至没有尝试包括协变量。我有一个使用 LDA 完成的文本分析版本,我只是想确认在使用不带协变量的 stm 时结果是否相似。当我 运行 下面的代码时,我在控制台上收到这条消息并且它没有改变:

Beginning Spectral Initialization 
     Calculating the gram matrix...
     Finding anchor words...
    ..........
     Recovering initialization...
    ..
Initialization complete. 

我不得不完全关闭 R 以使其退出 运行ning。这是代码:

test<- files[1:20, ] #the first 20 documents 
met<- mytab[1:20,] #the first 20 rows of the df with the metadata for each document

corp<- corpus(test, text_field = "text")
dfm <- dfm(tokens(corp, remove_punct=TRUE), 
           tolower=TRUE, stem=TRUE, remove_numbers = TRUE,
           remove=(c(stopwords("english"), 's', '$')))
dfm2<-dfm_subset(dfm, ntoken(dfm)>0)

# use quanteda converter to convert our Dfm
stmdfm <- convert(dfm2, to = "stm", docvars = met)
plotRemoved(stmdfm$documents, lower.thresh = seq(1, 80, by = 20))
out <- prepDocuments(stmdfm$documents, stmdfm$vocab, stmdfm$meta, lower.thresh = 3)

k <- 10
stmFit <- stm(out$documents, 
              out$vocab, 
              K = k,  
              max.em.its = 150, 
              data = out$meta, 
              init.type = "Spectral", 
              seed = 300)

有没有想过为什么这段代码不会产生结果?我预计 stm() 需要一段时间,但我已将此 运行ning 留在仅 20 个文档(每个文档在 txt 文件中平均只有几百个单词)超过 30 分钟而没有结果。

非常简单的答案是从头开始重新安装 Rcpp 包:

install.packages("Rcpp")
library(Rcpp)