未知单词的 IDF 分数?

Idf score for an unknown word?

我的任务是从文本中提取关键词。我所做的如下:

我正在使用 tf-idf "algorithm"。对于 idf 部分,我正在抓取维基百科文章并提取名词短语 (opennlp) 并将它们存储在数据库中。

所以当我分析文本时,我只需要计算 tf 部分并从数据库中获取 idf 部分。

目前的结果非常吸引人。我唯一的问题是 -> 因为我必须分析的文本与维基百科语料库不同,所以有些词具有高 tf 但没有 idf 值(在维基语料库中找不到)。但有时这些词仍然非常重要(例如,一家尚未在维基百科上列出的新公司)。

如果在 db(corpus) 中找不到它,我应该将什么作为 idf 值? (平均 idf 可能不是一个好主意)

IDF 是如何计算的?

如果您有类似 IDF = log_e(# of documents / # of documents with term) 的东西,您可以 log_e(# of documents +1 / 1)。即将该文档视为语料库中的新文档。