保存 word2vec 模型导致文件混乱
Saving word2vec model results in messed up file
以 word2vec 文本格式保存 word2vec 会得到一个包含奇怪字符的文件。
word2vec 生成向量的文件内容。
在我尝试在类比测试中使用矢量文件之前,我没有遇到任何错误。原文来自东非网络报纸
我的代码:
word2vec = gensim.models.Word2Vec(all_words, min_count=3, workers = 2)
save_as_1 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.txt"
save_as_2 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.bin"
word2vec.wv.save_word2vec_format(save_as_1, binary = "FALSE")
word2vec.wv.save_word2vec_format(save_as_2, binary = "TRUE")
vocabulary = word2vec.wv.vocab
print("Vectors: ")
print(vocabulary)
sim_words = word2vec.wv.most_similar('woman')
print("Words most similar to woman are: " + str(sim_words))
我想创建正确的嵌入文本文件。
您必须为 binary
参数提供一个布尔值:
word2vec.wv.save_word2vec_format(save_as_1, binary = False)
您的代码无效,因为任何非空字符串的计算结果都是 True
。
以 word2vec 文本格式保存 word2vec 会得到一个包含奇怪字符的文件。
word2vec 生成向量的文件内容。
在我尝试在类比测试中使用矢量文件之前,我没有遇到任何错误。原文来自东非网络报纸
我的代码:
word2vec = gensim.models.Word2Vec(all_words, min_count=3, workers = 2)
save_as_1 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.txt"
save_as_2 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.bin"
word2vec.wv.save_word2vec_format(save_as_1, binary = "FALSE")
word2vec.wv.save_word2vec_format(save_as_2, binary = "TRUE")
vocabulary = word2vec.wv.vocab
print("Vectors: ")
print(vocabulary)
sim_words = word2vec.wv.most_similar('woman')
print("Words most similar to woman are: " + str(sim_words))
我想创建正确的嵌入文本文件。
您必须为 binary
参数提供一个布尔值:
word2vec.wv.save_word2vec_format(save_as_1, binary = False)
您的代码无效,因为任何非空字符串的计算结果都是 True
。