如何组合由 doc2vec 的 PV-DM 和 PV-DBOW 方法生成的向量?

How to combine vectors generated by PV-DM and PV-DBOW methods of doc2vec?

我有大约 20,000 个文档,其中包含 60 - 150 个单词。在这 20K 份文件中,有 400 份文件是已知的类似文件。这400个文档作为我的测试数据。

我正在尝试使用 gensim doc2vec 为这 400 个数据集查找类似的文档。论文 "Distributed Representations of Sentences and Documents" 说 "The combination of PV-DM and PV-DBOW often work consistently better (7.42% in IMDB) and therefore recommended."

所以我想结合这两种方法的向量,找到与所有火车文档的余弦相似度和select余弦距离最小的前5个。

那么结合这两种方法的向量的有效方法是什么:相加或平均或任何其他方法???

结合这两个向量后,我可以对每个向量进行归一化,然后找到余弦距离。

这篇论文暗示他们已经连接了两种方法的向量。例如,给定一个 300d 的 PV-DBOW 向量和一个 300d 的 PV-DM 向量,您将在连接后得到一个 600d 的文本向量。

但是,请注意,他们在 IMDB 上的底线结果对外人来说很难重现。我的测试有时只显示这些串联向量的小优势。 (我特别想知道 300d PV-DBOW + 300d PV-DM 通过单独串联模型是否会比仅仅训练一个真正的 600d 模型更好,同样的时间,更少的 steps/complications。)

您可以在 gensimdocs/notebooks 目录中的示例笔记本之一中查看我重复原始 'Paragraph Vector' 论文的一些实验的演示:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb

除其他外,它包括一些步骤和有用的方法,用于将模型对视为一个串联的整体。