如何将新的文本数据转换为预定义的 dfm?
How to convert new text data to a predefined dfm?
我正在使用包 topicmodels 进行主题建模。所以我新将数据分成训练集和测试集。我想知道是否可以将测试数据转换为预定义的 dfm 对象(由训练数据生成)。
谢谢
不仅在主题建模中,在其他样本外预测中,您可以dfm_select()
使用DFM作为模式,使训练集和测试集的DMF特征相同。
require(quanteda)
require(topicmodels)
corp_train <- data_corpus_irishbudget2010[1:7]
mt_train <- dfm(corp_train)
lda <- LDA(convert(mt_train, "topicmodels"), 10)
corp_test <- data_corpus_irishbudget2010[8:14]
mt_test <- dfm(corp_test)
mt_test <- dfm_select(mt_test, mt_train) # make the features identical
post <- posterior(lda, mt_test)
apply(post$topic, 1, which.max)
我正在使用包 topicmodels 进行主题建模。所以我新将数据分成训练集和测试集。我想知道是否可以将测试数据转换为预定义的 dfm 对象(由训练数据生成)。
谢谢
不仅在主题建模中,在其他样本外预测中,您可以dfm_select()
使用DFM作为模式,使训练集和测试集的DMF特征相同。
require(quanteda)
require(topicmodels)
corp_train <- data_corpus_irishbudget2010[1:7]
mt_train <- dfm(corp_train)
lda <- LDA(convert(mt_train, "topicmodels"), 10)
corp_test <- data_corpus_irishbudget2010[8:14]
mt_test <- dfm(corp_test)
mt_test <- dfm_select(mt_test, mt_train) # make the features identical
post <- posterior(lda, mt_test)
apply(post$topic, 1, which.max)