文档术语矩阵中的最大术语长度

Maximal term length in Document Term Matrix

想象一下由 tm 包创建的以下文档术语矩阵:

> frequencies
<<DocumentTermMatrix (documents: 255, terms: 470)>>
Non-/sparse entries: 7693/112157
Sparsity           : 94%
Maximal term length: 10
Weighting          : term frequency (tf)

什么是最大期限?

最大术语长度是文档术语矩阵中一个(或多个)术语的最大字符数。

示例: 如果您在 dtm 中有 5 个单词,最长的术语是 "programming",最大术语长度为 11。

text <- c("word1", "word2", "word3", "word4", "programming")
corp <- Corpus(VectorSource(text))
term <- DocumentTermMatrix(corp)
term

<<DocumentTermMatrix (documents: 5, terms: 5)>>
Non-/sparse entries: 5/20
Sparsity           : 80%
Maximal term length: 11
Weighting          : term frequency (tf)