如何在 gensim 中加载预训练模型并用它训练 doc2vec?

How to load pre-trained model with in gensim and train doc2vec with it?

我有一个已经训练好的 word2vec 模型。我已将其序列化为 CSV 文件:

word,  v0,     v1,     ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car,   0.456,  0.677,  ..., 0.3461

我想知道的是如何在 gensim 中加载该词向量模型并使用它来训练段落或 doc2vec 模型。

这个 Doc2Vec tutorial 说我可以加载一个“# C text format”形式的模型,但我不知道这到底是什么意思。首先什么是 "C text format" 但更重要的是:

如何从我的 word2vec 模型构建词汇表?

Doc2Vec 不需要词向量作为输入:它会创建自己训练过程中需要的任何词向量。 (还有一些模式,比如纯 DBOW – dm=0, dbow_words=0 – 根本不使用或训练词向量。)

用词向量为 Doc2Vec 模型播种可能有帮助也有坏处;没有太多的理论或发表的结果可以提供指导。 Word2Vec 上有一个实验方法,intersect_word2vec_format(),可以将 word2vec-c-format 向量合并到具有现有词汇表的模型中,但您需要查看源代码才能真正理解其假设:

https://github.com/RaRe-Technologies/gensim/blob/51753b95415bbc344ea6af671818277464905ea2/gensim/models/word2vec.py#L1140