R 文本挖掘 - 转换术语文档矩阵
R Text Mining - Converting Term Document Matrix
我使用以下方法创建了一个二元组列表:
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm_a.bigram = TermDocumentMatrix(docs_a,
control = list(tokenize = BigramTokenizer))
我正在尝试计算每个二元组出现的文档数。如果我理解正确,术语文档矩阵将给出每个二元组在文档中出现的次数。但我只需要
'1'-出现在文档中并且
'0'-不存在。
如何将术语文档矩阵转换为数据框或矩阵才能获得这样的计数?
TDM 是来自 slam
包的 simple_triplet_matrix。其中有一些常用操作行row/colSums.
的功能
slam::row_sums(tdm_a.bigram>=1)
这应该告诉您每个二元组包含多少文档。
我使用以下方法创建了一个二元组列表:
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm_a.bigram = TermDocumentMatrix(docs_a,
control = list(tokenize = BigramTokenizer))
我正在尝试计算每个二元组出现的文档数。如果我理解正确,术语文档矩阵将给出每个二元组在文档中出现的次数。但我只需要 '1'-出现在文档中并且 '0'-不存在。
如何将术语文档矩阵转换为数据框或矩阵才能获得这样的计数?
TDM 是来自 slam
包的 simple_triplet_matrix。其中有一些常用操作行row/colSums.
slam::row_sums(tdm_a.bigram>=1)
这应该告诉您每个二元组包含多少文档。