为什么 java.lang.IllegalStateException 出现在运行 Word2VecExample 形成 Scala Spark mllib 时？

Question

我正在尝试读取 Spark-mllib 示例 (Word2VecExample) 中的文本文件并创建它的词向量。我通过一些文本文件运行它没有给出任何错误，但是当读取我的一个文件时，它给出了这个错误，我真的很困惑，因为我尝试了一切，例如文件格式（utf -8) 和 ASCII 个字符。这是我的源代码：

package org.apache.spark.examples.mllib

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
// $example on$
import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel}
// $example off$

object Word2VecExample {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("Word2VecExample")
    conf.setMaster("local[4]")
    val sc = new SparkContext(conf)

    val input = sc.textFile("C:\Users\...\Desktop\yelp_labelled.txt").map(line => line.split(" ").toSeq)

    val word2vec = new Word2Vec()

    val model = word2vec.fit(input)

    val synonyms = model.findSynonyms("1", 5)

    for((synonym, cosineSimilarity) <- synonyms) {
      println(s"$synonym $cosineSimilarity")
    }

    model.save(sc, "C:\Users\...\Desktop\Edited1Yelp")
    val sameModel = Word2VecModel.load(sc, "C:\Users\...\Edited1Yelp")

    // $example off$

    sc.stop()
  }
}

这是错误：

Exception in thread "main" 19/05/29 18:36:29 INFO BlockManagerInfo: Removed broadcast_4_piece0 on DESKTOP-T5EN156:64774 in memory (size: 13.0 KB, free: 2.2 GB)
java.lang.IllegalStateException: 1 not in vocabulary
    at org.apache.spark.mllib.feature.Word2VecModel.transform(Word2Vec.scala:533)
    at org.apache.spark.mllib.feature.Word2VecModel.findSynonyms(Word2Vec.scala:545)
    at org.apache.spark.examples.mllib.Word2VecExample$.main(Word2VecExample.scala:43)
    at org.apache.spark.examples.mllib.Word2VecExample.main(Word2VecExample.scala)

第 43 行指的是 val synonyms = model.findSynonyms("1", 5)，但我确定这是真的，因为我运行程序与其他一些文件正确。

Answer 1

您好，对Spark不是很了解。也不能 post 发表评论，所以必须回答。查看文档 here.

.findSynonyms("string",num) "Find "num" 与给定单词最相似的单词数，不包括单词本身。"

所以我不禁想知道正在寻找字符串“1”可能不是问题所在。在我的脑海中，我很难找到“1”的 5 个同义词，也许是 "one"，也许是 "uniary"，或者可能是 "individual"。根据我的阅读，Spark 是一个机器学习库，所以您是否尝试简化这个问题？也许要求一个同义词或提供一个更简单的字符串来搜索 "happy"。不过，这只是我的两分钱，主要是对实际发生的事情感到好奇。

Answer 2

基于 Spark 示例和 documentation，此错误源自 findSynonyms(String, int) 方法。此方法中的 String 参数必须有一个向量，如果不存在此向量，则错误

Java.lang.IllegalStateException.

出现。因此，在我的示例中，输入字符串参数“1”没有向量。

为什么 java.lang.IllegalStateException 出现在运行 Word2VecExample 形成 Scala Spark mllib 时？

Why java.lang.IllegalStateException occurs when running Word2VecExample form Scala Spark mllib?

scala

apache-spark

word2vec

apache-spark-mllib

为什么 java.lang.IllegalStateException 出现在 运行 Word2VecExample 形成 Scala Spark mllib 时？

Why java.lang.IllegalStateException occurs when running Word2VecExample form Scala Spark mllib?

scala

apache-spark

word2vec

apache-spark-mllib

为什么 java.lang.IllegalStateException 出现在运行 Word2VecExample 形成 Scala Spark mllib 时？