文档术语矩阵中的最大术语长度
Maximal term length in Document Term Matrix
想象一下由 tm 包创建的以下文档术语矩阵:
> frequencies
<<DocumentTermMatrix (documents: 255, terms: 470)>>
Non-/sparse entries: 7693/112157
Sparsity : 94%
Maximal term length: 10
Weighting : term frequency (tf)
什么是最大期限?
最大术语长度是文档术语矩阵中一个(或多个)术语的最大字符数。
示例: 如果您在 dtm 中有 5 个单词,最长的术语是 "programming",最大术语长度为 11。
text <- c("word1", "word2", "word3", "word4", "programming")
corp <- Corpus(VectorSource(text))
term <- DocumentTermMatrix(corp)
term
<<DocumentTermMatrix (documents: 5, terms: 5)>>
Non-/sparse entries: 5/20
Sparsity : 80%
Maximal term length: 11
Weighting : term frequency (tf)
想象一下由 tm 包创建的以下文档术语矩阵:
> frequencies
<<DocumentTermMatrix (documents: 255, terms: 470)>>
Non-/sparse entries: 7693/112157
Sparsity : 94%
Maximal term length: 10
Weighting : term frequency (tf)
什么是最大期限?
最大术语长度是文档术语矩阵中一个(或多个)术语的最大字符数。
示例: 如果您在 dtm 中有 5 个单词,最长的术语是 "programming",最大术语长度为 11。
text <- c("word1", "word2", "word3", "word4", "programming")
corp <- Corpus(VectorSource(text))
term <- DocumentTermMatrix(corp)
term
<<DocumentTermMatrix (documents: 5, terms: 5)>>
Non-/sparse entries: 5/20
Sparsity : 80%
Maximal term length: 11
Weighting : term frequency (tf)