Doc2Vec生成的文档向量会不会和Word2Vec得到的文档向量相似？

Will the document vectors generated by Doc2Vec be similar to document vectors obtained through Word2Vec?

我看到几篇博文说，文档向量不仅可以通过 Doc2Vec 生成，还可以通过对运行 Word2vec 算法获得的词向量进行平均来生成。在那种情况下，通过两种算法生成的向量是否相同？生成文档向量的最有效方法是什么？为什么？

这方面的任何参考链接都会有很大帮助！！

提前致谢

这是为一组词创建向量的两种不同方法。

矢量位置不同，质量也不同。

平均速度非常快，尤其是在您已经有了词向量的情况下。但这是一种非常简单的方法，不会捕捉到许多不同的含义——实际上它完全没有注意到单词 ordering/relative 的相似性，并且平均的行为可能会导致文本中的 'cancel out' 对比意义。

Doc2Vec 相反，以与词向量非常相似的方式（通常与词向量一起）训练全文向量。本质上，一个假装词被分配给文本 'floats' 除了词向量训练，就好像它是 'near' 所有其他词训练（对于那个文本）。这是一种稍微复杂的方法，但由于它对相同数据使用非常相似的算法（和模型复杂性），许多下游评估的结果通常相似。

如语法规则和更高级的语言用法所暗示的那样，要获得捕获更微妙含义的摘要文本向量，可能需要更复杂的方法，例如那些采用更大深度网络的方法。

没有最有效的方法，因为所有实际用途在很大程度上取决于文本的类型、数量和质量，以及矢量的预期用途。

Doc2Vec生成的文档向量会不会和Word2Vec得到的文档向量相似？

Will the document vectors generated by Doc2Vec be similar to document vectors obtained through Word2Vec?

nlp

word2vec

word-embedding

doc2vec