如何加载预训练的 Word2vec 模型文件并重新使用它?
How to load a pre-trained Word2vec MODEL File and reuse it?
我想使用预训练的 word2vec
模型,但我不知道如何在 python 中加载它。
此文件是模型文件 (703 MB)。
可以在这里下载:
http://devmount.github.io/GermanWordEmbeddings/
只是为了加载
import gensim
# Load pre-trained Word2Vec model.
model = gensim.models.Word2Vec.load("modelName.model")
现在您可以照常训练模型了。另外,如果你想保存它并多次重新训练它,你应该这样做
model.train(//insert proper parameters here//)
"""
If you don't plan to train the model any further, calling
init_sims will make the model much more memory-efficient
If `replace` is set, forget the original vectors and only keep the normalized
ones = saves lots of memory!
replace=True if you want to reuse the model
"""
model.init_sims(replace=True)
# save the model for later use
# for loading, call Word2Vec.load()
model.save("modelName.model")
使用KeyedVectors
加载预训练模型。
from gensim.models import KeyedVectors
from gensim import models
word2vec_path = 'path/GoogleNews-vectors-negative300.bin.gz'
w2v_model = models.KeyedVectors.load_word2vec_format(word2vec_path, binary=True)
我在我的代码中使用了相同的模型,但由于无法加载它,所以我询问了作者。他的回答是模型必须以二进制格式加载:
gensim.models.KeyedVectors.load_word2vec_format(w2v_path, binary=True)
这对我有用,我认为它也应该对你有用。
我想使用预训练的 word2vec
模型,但我不知道如何在 python 中加载它。
此文件是模型文件 (703 MB)。
可以在这里下载:
http://devmount.github.io/GermanWordEmbeddings/
只是为了加载
import gensim
# Load pre-trained Word2Vec model.
model = gensim.models.Word2Vec.load("modelName.model")
现在您可以照常训练模型了。另外,如果你想保存它并多次重新训练它,你应该这样做
model.train(//insert proper parameters here//)
"""
If you don't plan to train the model any further, calling
init_sims will make the model much more memory-efficient
If `replace` is set, forget the original vectors and only keep the normalized
ones = saves lots of memory!
replace=True if you want to reuse the model
"""
model.init_sims(replace=True)
# save the model for later use
# for loading, call Word2Vec.load()
model.save("modelName.model")
使用KeyedVectors
加载预训练模型。
from gensim.models import KeyedVectors
from gensim import models
word2vec_path = 'path/GoogleNews-vectors-negative300.bin.gz'
w2v_model = models.KeyedVectors.load_word2vec_format(word2vec_path, binary=True)
我在我的代码中使用了相同的模型,但由于无法加载它,所以我询问了作者。他的回答是模型必须以二进制格式加载:
gensim.models.KeyedVectors.load_word2vec_format(w2v_path, binary=True)
这对我有用,我认为它也应该对你有用。