IDF 对索引中现有文档的重新计算？

IDF recaculation for existing documents in index?

我已经完成了 [相关性评分背后的理论][1] 并得到了两个相关问题

Q1 :- 由于 IDF 公式是 idf(t) = 1 + log ( numDocs / (docFreq + 1))，其中 numDocs 是索引中的文档总数。这是否意味着每次在索引中添加新文档时，我们都需要为索引中所有现有文档的每个单词重新计算 IDF？

Q2 :- Link 提到了下面的声明。我的问题是为什么 TF/IDF 分数是针对每个字段而不是完整文档计算的？

When we refer to documents in the preceding formulae, we are actually talking about a field within a document. Each field has its own inverted index and thus, for TF/IDF purposes, the value of the field is the value of the document.

您只在查询时而不是在插入时计算分数。 Lucene 具有正确的统计数据，可以快速计算并且值始终是最新的。
频率仅对单个字段有意义，因为您对该特定字段的值感兴趣。假设我们有多个字段并且我们搜索一个字段，那么我们只对那个字段的频率感兴趣。搜索多个您仍然希望控制各个字段（例如提升 "title" 而不是 "body"）或想要定义如何组合它们。如果你有一个 use-case 这没有意义（不确定我现在有一个很好的例子 - 它在 IMO 中不太常见）那么你可以将多个字段合并为一个 copy_to 并搜索那。