什么是gensim的'docvecs'?

What is gensim's 'docvecs'?

上图来自Distributed Representations of Sentences and Documents介绍Doc2Vec的论文。我正在使用 Gensim 的 Word2Vec 和 Doc2Vec 实现,它们很棒,但我希望在一些问题上得到澄清。

  1. 对于给定的 doc2vec 模型 dvm,什么是 dvm.docvecs?我的印象是它是包含所有词嵌入 段落向量 d 的平均或连接向量。这是正确的还是d?
  2. 假设dvm.docvecs不是d,一个人可以自己访问d吗?怎么样?
  3. 作为奖金,d是如何计算的?论文只说:

In our Paragraph Vector framework (see Figure 2), every paragraph is mapped to a unique vector, represented by a column in matrix D and every word is also mapped to a unique vector, represented by a column in matrix W.

感谢任何线索!

Doc2Vec 模型的 docvecs 属性 包含训练期间看到的 'document tags' 的所有训练向量。 (这些在源代码中也称为 'doctags'。)

在最简单的情况下,类似于段落向量论文,每个文本示例(段落)只有一个序列号整数 ID 作为其 'tag',从 0 开始。这将是索引docvecs 对象 - model.docvecs.doctag_syn0 numpy 数组与段落向量论文摘录中的(大写)D 本质上是相同的。

(Gensim 还支持使用字符串标记作为文档标签,每个文档有多个标签,以及在许多训练文档中重复标记。对于字符串标签,如果有的话,它们被映射到接近尾部的索引docvecs 由字典 model.docvecs.doctags.)