未知单词的 IDF 分数？

Idf score for an unknown word?

我的任务是从文本中提取关键词。我所做的如下：

我正在使用 tf-idf "algorithm"。对于 idf 部分，我正在抓取维基百科文章并提取名词短语 (opennlp) 并将它们存储在数据库中。

所以当我分析文本时，我只需要计算 tf 部分并从数据库中获取 idf 部分。

目前的结果非常吸引人。我唯一的问题是 -> 因为我必须分析的文本与维基百科语料库不同，所以有些词具有高 tf 但没有 idf 值（在维基语料库中找不到）。但有时这些词仍然非常重要（例如，一家尚未在维基百科上列出的新公司）。

如果在 db(corpus) 中找不到它，我应该将什么作为 idf 值？（平均 idf 可能不是一个好主意）

IDF 是如何计算的？

如果您有类似 IDF = log_e(# of documents / # of documents with term) 的东西，您可以 log_e(# of documents +1 / 1)。即将该文档视为语料库中的新文档。