R 文本挖掘 - 转换术语文档矩阵

Question

我使用以下方法创建了一个二元组列表：

BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm_a.bigram = TermDocumentMatrix(docs_a,
                                control = list(tokenize = BigramTokenizer))

我正在尝试计算每个二元组出现的文档数。如果我理解正确，术语文档矩阵将给出每个二元组在文档中出现的次数。但我只需要 '1'-出现在文档中并且 '0'-不存在。

如何将术语文档矩阵转换为数据框或矩阵才能获得这样的计数？

Answer 1

TDM 是来自 slam 包的 simple_triplet_matrix。其中有一些常用操作行row/colSums.

的功能

slam::row_sums(tdm_a.bigram>=1)

这应该告诉您每个二元组包含多少文档。

R 文本挖掘 - 转换术语文档矩阵

R Text Mining - Converting Term Document Matrix

r

text-mining

tm

term-document-matrix

rweka