PySpark

Question

我用 PySpark 训练了一个 Word2Vec 模型并保存了它。加载模型时，.findSynonyms 方法不起作用。

model = word2vec.fit(text)
model.save(sc, 'w2v_model')
new_model = Word2VecModel.load(sc, 'w2v_model')
new_model.findSynonyms('word', 4)

出现以下错误：

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/spark/python/pyspark/mllib/feature.py", line 487, in findSynonyms
words, similarity = self.call("findSynonyms", word, num)
ValueError: too many values to unpack

我发现了以下内容，但不确定问题是如何解决的：https://issues.apache.org/jira/browse/SPARK-12016

如果有任何解决方法，请告诉我！

非常感谢。

Answer 1

看起来它在 1.6.1 上已修复，但在 1.5.2 上未修复。

该错误与 findSynonyms 无关，而与 Word2VecModel.load 有关。我检查过它适用于 1.6.1。加载模型和调用 findSynonyms 方法时没有错误。

我想 v.1.5.2 还没有修复。

PySpark - Word2Vec 加载模型，无法使用 findSynonyms 获取单词

PySpark - Word2Vec load model, can't use findSynonyms to get words

apache-spark

word2vec