使用 r-tm 读取文档以与 r-mallet 一起使用
Reading documents with r-tm to use with r-mallet
我有这个代码来拟合主题模型 R wrapper for MALLET:
docs <- mallet.import(DF$document, DF$text, stop_words)
mallet_model <- MalletLDA(num.topics = 4)
mallet_model$loadDocuments(docs)
mallet_model$train(100)
我已经使用 tm 包阅读了我的文档,这些文档是目录中的 txt 文件:
myCorpus <- Corpus(DirSource("data")) # a directory of txt files
语料库不能作为mallet.import
的输入,那么如何从上面的tm语料库myCorpus
调到DF
调用呢?
RMallet 旨在成为一个独立的软件包,因此与 tm 的集成不是很好。 RMallet 输入的要求是一个数据框,每个文档一行,以及一个包含文本的字符字段,它预计不会被标记化。
您可以使用整洁的数据原则来处理您的文本并准备好输入到 mallet 中,每个文档一行,as described here。
另外,tidytext中有mallet package的tidiers,可以用来分析mallet主题建模的输出:
# word-topic pairs
tidy(mallet_model)
# document-topic pairs
tidy(mallet_model, matrix = "gamma")
# column needs to be named "term" for "augment"
term_counts <- rename(word_counts, term = word)
augment(mallet_model, term_counts)
我有这个代码来拟合主题模型 R wrapper for MALLET:
docs <- mallet.import(DF$document, DF$text, stop_words)
mallet_model <- MalletLDA(num.topics = 4)
mallet_model$loadDocuments(docs)
mallet_model$train(100)
我已经使用 tm 包阅读了我的文档,这些文档是目录中的 txt 文件:
myCorpus <- Corpus(DirSource("data")) # a directory of txt files
语料库不能作为mallet.import
的输入,那么如何从上面的tm语料库myCorpus
调到DF
调用呢?
RMallet 旨在成为一个独立的软件包,因此与 tm 的集成不是很好。 RMallet 输入的要求是一个数据框,每个文档一行,以及一个包含文本的字符字段,它预计不会被标记化。
您可以使用整洁的数据原则来处理您的文本并准备好输入到 mallet 中,每个文档一行,as described here。
另外,tidytext中有mallet package的tidiers,可以用来分析mallet主题建模的输出:
# word-topic pairs
tidy(mallet_model)
# document-topic pairs
tidy(mallet_model, matrix = "gamma")
# column needs to be named "term" for "augment"
term_counts <- rename(word_counts, term = word)
augment(mallet_model, term_counts)