词向量和段落向量查询

word vector and paragraph vector query

我试图了解 Gensim 实现中 word2vec 和 doc2vec 向量之间的关系。在我的应用程序中,我用相同的标签(主题)标记多个文档,我正在使用 dbow_words=1 在我的语料库上训练 doc2vec 模型,以便也训练词向量。我已经能够以这种方式获得单词和文档向量之间的相似性,这确实很有意义 对于前。获取类似于单词的文档标签- doc2vec_model.docvecs.most_similar(正数 = [doc2vec_model["management"]], topn = 50))

然而,我的问题是关于计算 word2vec 和 doc2vec 向量之间相似性的理论解释。可以安全地假设当在具有相同维度 (d = 200) 的相同语料库上训练时,总是可以比较词向量和文档向量以找到文档标签的相似词或词的相似文档标签。欢迎任何 suggestion/ideas。

问题 2:我的其他问题是关于 high/low 词频在最终 word2vec 模型中的影响。如果 wordA 和 wordB 在文档的特定文档标签(集)中具有相似的上下文,但 wordA 的频率比 wordB 高得多,那么 wordB 是否与相应的文档标签具有更高的相似度得分。我正在尝试通过以时间方式对语料库进行采样来训练多个 word2vec 模型,并且想知道假设随着单词变得越来越频繁,假设上下文相对保持相似,与文档标签的相似性得分是否也会增加。我做这个假设错了吗?任何 suggestions/ideas 都非常欢迎。

谢谢, 马尼什

在 word-vectors 和 doctag-vectors 在训练期间互换使用的训练模式中,对于相同的 surrounding-words prediction-task,它们往往具有有意义的可比性。 (你的模式,DBOW with interleaved skip-gram word-training,适合这个并且是论文'Document Embedding with Paragraph Vectors'使用的模式。)

你的第二个问题是抽象的和推测性的;我认为您必须自己测试这些想法。 Word2Vec/Doc2Vec 过程训练向量擅长某些机械 word-prediction 任务,受模型约束和与其他向量质量的权衡。由此产生的空间安排恰好可用于其他目的——ranked/absolute 相似性、沿某些概念线的相似性、分类等——这只是一种观察到的、实用的好处。这是一个 'trick that works',并且可能会产生见解,但是模型响应不同参数选择或语料库特征而变化的许多方式在理论上或实验上都没有 worked-out。