如何加载预训练的 Word2vec 模型文件并重新使用它?

How to load a pre-trained Word2vec MODEL File and reuse it?

我想使用预训练的 word2vec 模型,但我不知道如何在 python 中加载它。

此文件是模型文件 (703 MB)。 可以在这里下载:
http://devmount.github.io/GermanWordEmbeddings/

只是为了加载

import gensim

# Load pre-trained Word2Vec model.
model = gensim.models.Word2Vec.load("modelName.model")

现在您可以照常训练模型了。另外,如果你想保存它并多次重新训练它,你应该这样做

model.train(//insert proper parameters here//)
"""
If you don't plan to train the model any further, calling
init_sims will make the model much more memory-efficient
If `replace` is set, forget the original vectors and only keep the normalized
ones = saves lots of memory!
replace=True if you want to reuse the model
"""
model.init_sims(replace=True)

# save the model for later use
# for loading, call Word2Vec.load()

model.save("modelName.model")

使用KeyedVectors加载预训练模型。

from gensim.models import KeyedVectors
from gensim import models

word2vec_path = 'path/GoogleNews-vectors-negative300.bin.gz'
w2v_model = models.KeyedVectors.load_word2vec_format(word2vec_path, binary=True)

我在我的代码中使用了相同的模型,但由于无法加载它,所以我询问了作者。他的回答是模型必须以二进制格式加载:

gensim.models.KeyedVectors.load_word2vec_format(w2v_path, binary=True)

这对我有用,我认为它也应该对你有用。