两个语料库的Tf-Idf计算

Tf-Idf calculation for two corpuses

我有两个语料库（语料库 1 和语料库 2），语料库 1 中的文档包含语料库 2 中的抄袭句子。我正在使用 Tf-Idf 方法来衡量语料库 1 中的文档与语料库 2 中的文档之间的相似性.

对语料库2中的词条建立了倒排索引，如下：

很快，对于每两个句子的比较，我构建了两个 Tf-Idf 向量，然后我使用余弦相似度来衡量相似度。

我的问题是，在与语料库1的句子相关的向量构建过程中，我使用语料库2索引通过总结与X项相关的文档来获得Idf，这是正确的方法吗！？因为语料库 1 中的某些术语在语料库 2 中不可用，并且 Tf-idf 函数将为这些术语 return 0！或者我必须为语料库 1 建立另一个索引（在我看来这将消除 Tf-idf 的能力）。

我们必须索引目标语料库，这是我们需要完成的工作，例如：如果我们有 2 个语料库，一个是原创的，一个是抄袭的。我们必须索引原始的，因为我们需要搜索。

两个语料库的Tf-Idf计算

Tf-Idf calculation for two corpuses

java

tf-idf

inverted-index

cosine-similarity