Doc2Vec生成的文档向量会不会和Word2Vec得到的文档向量相似?

Will the document vectors generated by Doc2Vec be similar to document vectors obtained through Word2Vec?

我看到几篇博文说,文档向量不仅可以通过 Doc2Vec 生成,还可以通过对 运行 Word2vec 算法获得的词向量进行平均来生成。 在那种情况下,通过两种算法生成的向量是否相同? 生成文档向量的最有效方法是什么?为什么?

这方面的任何参考链接都会有很大帮助!!

提前致谢

这是为一组词创建向量的两种不同方法。

矢量位置不同,质量也不同。

平均速度非常快,尤其是在您已经有了词向量的情况下。但这是一种非常简单的方法,不会捕捉到许多不同的含义——实际上它完全没有注意到单词 ordering/relative 的相似性,并且平均的行为可能会导致文本中的 'cancel out' 对比意义。

Doc2Vec 相反,以与词向量非常相似的方式(通常与词向量一起)训练全文向量。本质上,一个假装词被分配给文本 'floats' 除了词向量训练,就好像它是 'near' 所有其他词训练(对于那个文本)。这是一种稍微复杂的方法,但由于它对相同数据使用非常相似的算法(和模型复杂性),许多下游评估的结果通常相似。

如语法规则和更高级的语言用法所暗示的那样,要获得捕获更微妙含义的摘要文本向量,可能需要更复杂的方法,例如那些采用更大深度网络的方法。

没有最有效的方法,因为所有实际用途在很大程度上取决于文本的类型、数量和质量,以及矢量的预期用途。