gensim 预训练模型可以用于 doc2vec 模型吗?

Can the gensim pretrained models be used for doc2vec models?

我正在尝试加载预训练模型 listed here 以测试少数段落的相似性。

gensim 的预训练模型是否只能用于词级向量,或者模型是否也可以用于文档长度向量?

当前列出的大多数模型(截至 2020-11-21)只是词向量集 - 允许按单个词查找向量,但不是允许后续训练的完整算法模型. (我看到的唯一例外是 FastText 模型,它 * 可能是一个完整的 FastText 模型,我不确定。但即使在那里,该模型也只报告已知单词的单词向量,或者合成一个向量词汇表单词 - 没有为较大文本创建向量的本机方法。)

从任何一组词向量中,都有一些粗略的方法可以为较大的文本创建一个简单的向量(例如对文本中的词的所有词向量进行平均),或者在两者之间进行其他比较使用词向量来影响相似度的词集(例如“Word Mover's Distance”算法,在 Gensim 词向量集上可用 wmdistance()。)

但是 none 通过 gensim.downloader 实用程序可用的模型适用于固有地为较大文本创建向量的算法(例如 Doc2Vec)。

(另外:我强烈建议从原始位置明确下载模型作为数据,而不是使用 gensim.downloader 实用程序。它掩盖了过程的关键方面,包括 运行 额外'shim' 在正常代码版本控制和包安装过程之外下载的每个数据集的代码,我认为这种做法 recklessly insecure。)