两个语料库的Tf-Idf计算

Tf-Idf calculation for two corpuses

我有两个语料库(语料库 1 和语料库 2),语料库 1 中的文档包含语料库 2 中的抄袭句子。我正在使用 Tf-Idf 方法来衡量语料库 1 中的文档与语料库 2 中的文档之间的相似性.

对语料库2中的词条建立了倒排索引,如下:

很快,对于每两个句子的比较,我构建了两个 Tf-Idf 向量,然后我使用余弦相似度来衡量相似度。

我的问题是,在与语料库1的句子相关的向量构建过程中,我使用语料库2索引通过总结与X项相关的文档来获得Idf,这是正确的方法吗!?因为语料库 1 中的某些术语在语料库 2 中不可用,并且 Tf-idf 函数将为这些术语 return 0!或者我必须为语料库 1 建立另一个索引(在我看来这将消除 Tf-idf 的能力)。

我们必须索引目标语料库,这是我们需要完成的工作,例如: 如果我们有 2 个语料库,一个是原创的,一个是抄袭的。 我们必须索引原始的,因为我们需要搜索。