tf-idf:我应该对文档长度进行归一化吗

tf-idf : should I do normalization of documents length

使用 TF-IDF 比较文档 A、B 时 我知道文件的长度并不重要。 但与 A-B 相比,A-C 在这种情况下,我认为文档B、C的长度应该是一样的。

例如 日志:100字 文件A:20字 文档 B : 30 字

Log - A 的 TF-IDF 分数:0.xx Log - B 的 TF-IDF 分数:0.xx

我应该对文档 A、B 进行规范化吗? (如果比较目标不一样,好像是有问题或者错误的结果)

通常,您想做任何能为您的数据提供最佳交叉验证结果的事情。

如果您对它们所做的所有比较都是采用余弦相似度,那么您必须将向量归一化作为计算的一部分,但这不会因为文档长度不同而影响分数。许多通用文档检索系统认为较短的文档更有价值,但这通常在计算相似性后作为分数乘数处理。

经常使用 ln(TF) 而不是原始 TF 分数作为标准化特征,因为看到一个术语 1 次和 2 次之间的差异比看到一个术语 100 次和 200 次之间的差异更重要;它还可以防止过度使用术语来控制向量,并且通常更加稳健。