Spark MLlib 统计信息:它在哪里?

Spark MLib Statistics: where is it?

当我尝试:

 import org.apache.spark.mllib.stat.MultivariateStatisticalSummary
 import org.apache.spark.SparkContext._
 import org.apache.spark.mllib.stat.Statistics

我收到一个错误:

 object Statistics is not a member of package org.apache.spark.mllib.stat

如何解决这个问题?

更新

我使用 Spark 1.1.0 并将作业提交为:

/home/zork/usr/spark-1.1.0/bin/spark-submit \
  --class Data \
  --master local[*] \
  --driver-memory 2g \
    /home/zork/wks/ShopList/target/scala-2.10/shoplist_2.10-1.0.jar \
    /home/zork/wks/ShopList/data/orders-4.csv \
    /home/zork/wks/ShopList/data/books.csv \
    /home/zork/wks/ShopList/data/erros.csv

有什么想法吗?

还有我的 build.sbt:

$ cat build.sbt
name := "ShopList"

version := "1.0"

scalaVersion := "2.10.4"

libraryDependencies += "org.apache.spark" % "spark-mllib_2.10" % "1.0.0" % "provided"

你的 spark 版本是多少?

您是在 spark shell 上使用它还是在使用 spark 提交作业。

我将它与 spark 1.2 一起使用,没有任何问题

libraryDependencies += "org.apache.spark" % "spark-mllib_2.10" % "1.2.0"

将您的 spark-mllib sbt 依赖项更新为 1.1.0 或更高版本。 Statistics 在 1.0.0 中不可用:

libraryDependencies += "org.apache.spark" % "spark-mllib_2.10" % "1.1.0" % "provided"