不同长度的 tf-idf 文档

Question

我在网上搜索了关于在文档长度非常不同的情况下标准化 tf 等级的信息（例如，文档长度从 500 字到 2500 字不等）

我发现的唯一规范化是关于在文档长度中划分术语频率，因此导致文档长度没有任何意义。

虽然这种方法对于规范化 tf.如果有的话，它会导致每个文档的 tf 等级有很大的偏差（除非所有文档都是从几乎相同的字典构建的，使用 tf-idf 时情况并非如此）

例如，让我们拿 2 个文档 - 一个包含 100 个不同的单词，另一个包含 1000 个不同的单词。 doc1 中的每个单词的 tf 为 0.01，而 doc2 中的每个单词的 tf 为 0.001

这会导致 tf-idf 等级在将单词与 doc1 匹配时自动比 doc2 大

有人对更合适的归一化公式有任何建议吗？

谢谢

编辑我还看到了一种方法，说明我们应该将术语频率除以每个文档的文档的最大术语频率这也不能解决我的问题

我在想的是计算所有文档的最大词频，然后通过将每个词频除以最大值

来归一化所有词

很想知道你的想法

Answer 1

你的分析目标是什么？

如果您的最终目标是比较文档之间的相似性（等等），那么您不应该在 tfidf 计算阶段担心文档长度。这是原因。

tfidf 以公共向量 space 表示您的文档。如果您随后计算这些向量之间的 余弦相似度 ，则余弦相似度补偿了不同文档长度的影响。原因是余弦相似性评估向量的方向而不是它们的大小。我可以用 python 告诉你要点：考虑以下（哑）文档

document1 = "apple apple banana"
document2 = "apple apple apple apple banana banana"

documents = (
    document1,
    document2)

这些文档的长度不同，但内容相同。更准确地说，两个文档中术语的相对分布相同，但绝对术语频率不同。

现在，我们使用 tfidf 将这些文档表示在一个公共向量中 space:

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

并且我们使用 余弦相似度 来评估这些向量化文档的相似度，只看它们的方向（或方位）而不关心它们的大小（即它们的长度） ).我正在评估文档一和文档二之间的余弦相似度：

from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])

结果为1。请记住，当两个向量具有完全相同的方向时，两个向量之间的余弦相似度等于 1，当它们正交时为 0，当向量具有相反方向时为 -1。

在这种情况下，您可以看到余弦相似度不受文档长度的影响，并且捕获了原始文档中术语的相对分布相同的事实！如果您想将此信息表示为文档之间的 "distance"，那么您可以简单地执行：

1 - cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])

当文档相似时（无论它们的长度如何），该值将趋向于 0，而当它们不相似时，该值将趋向于 1。

不同长度的 tf-idf 文档

tf-idf documents of different length

python

normalization

tf-idf

textblob