如何组合由 doc2vec 的 PV-DM 和 PV-DBOW 方法生成的向量？

How to combine vectors generated by PV-DM and PV-DBOW methods of doc2vec?

我有大约 20,000 个文档，其中包含 60 - 150 个单词。在这 20K 份文件中，有 400 份文件是已知的类似文件。这400个文档作为我的测试数据。

我正在尝试使用 gensim doc2vec 为这 400 个数据集查找类似的文档。论文 "Distributed Representations of Sentences and Documents" 说 "The combination of PV-DM and PV-DBOW often work consistently better (7.42% in IMDB) and therefore recommended."

所以我想结合这两种方法的向量，找到与所有火车文档的余弦相似度和select余弦距离最小的前5个。

那么结合这两种方法的向量的有效方法是什么：相加或平均或任何其他方法？？？

结合这两个向量后，我可以对每个向量进行归一化，然后找到余弦距离。

这篇论文暗示他们已经连接了两种方法的向量。例如，给定一个 300d 的 PV-DBOW 向量和一个 300d 的 PV-DM 向量，您将在连接后得到一个 600d 的文本向量。

但是，请注意，他们在 IMDB 上的底线结果对外人来说很难重现。我的测试有时只显示这些串联向量的小优势。（我特别想知道 300d PV-DBOW + 300d PV-DM 通过单独串联模型是否会比仅仅训练一个真正的 600d 模型更好，同样的时间，更少的 steps/complications。）

您可以在 gensim 的 docs/notebooks 目录中的示例笔记本之一中查看我重复原始 'Paragraph Vector' 论文的一些实验的演示：

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb

除其他外，它包括一些步骤和有用的方法，用于将模型对视为一个串联的整体。

如何组合由 doc2vec 的 PV-DM 和 PV-DBOW 方法生成的向量？

How to combine vectors generated by PV-DM and PV-DBOW methods of doc2vec?

python

nlp

gensim

sentence-similarity

doc2vec