使用 TM 进行 R 文本挖掘:文档是否包含罕见的单词

R text mining with TM: Does a document contain words that are rare

在 R 中使用 TM 包,如何根据文档的唯一性对其进行评分?我想以某种方式将包含非常独特的单词的文档与包含常用单词的文档分开。

我知道如何找到常用词和最少用词,例如findFreqTerms,但如何根据文档的唯一性对文档进行评分?

我正在努力想出一个好的解决方案。

评估哪些词仅在某些文档中使用的一个很好的起点是所谓的 tf-idf 权重 (tidytext package vignette)。这会为每个(单词、文档)组合分配一个分数,因此一旦计算出该分数,您就可以尝试沿 'document' 边距进行汇总,也许字面上只是 colMeans,以了解有多少相对独特它使用的术语。

为了分离文档,像 tf-idf 这样的加权方案可能比仅仅找到最稀有的整体标记更好:在大多数文档中使用一次的稀有词与在少数文档中使用多次的词的处理方式完全不同.

R 包 TM、tidytext 和 quanteda 都有计算这个的函数。