Spark mllib LinearRegression 奇怪的结果

Spark mllib LinearRegression weird result

从我尝试做线性回归的例子开始。 问题是我得到了错误的结果。作为拦截器我应该有: 2.2.

我尝试添加在另一个 post 上找到的 .optimizer.setStepSize(0.1),但仍然得到一个奇怪的结果。 建议?

这是一组数据

1,2
2,4
3,5
4,4
5,5

代码:

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.regression.LinearRegressionModel
import org.apache.spark.mllib.regression.LinearRegressionWithSGD
import org.apache.spark.mllib.linalg.Vectors

object linearReg {
  def main(args: Array[String]) {
    StreamingExamples.setStreamingLogLevels()
    val sparkConf = new SparkConf().setAppName("linearReg").setMaster("local")
    val sc=new SparkContext(sparkConf)
    // Load and parse the data
    val data = sc.textFile("/home/daniele/dati.data")
    val parsedData = data.map { line =>
      val parts = line.split(',')
      LabeledPoint(parts(0).toDouble, Vectors.dense(Array(1.0)++parts(1).split(' ').map(_.toDouble)))
    }.cache()
    parsedData.collect().foreach(println)
    // Building the model
    val numIterations = 1000
    val model = LinearRegressionWithSGD.train(parsedData, numIterations)
    println("Interceptor:"+model.intercept)
    // Evaluate model on training examples and compute training error
    val valuesAndPreds = parsedData.map { point =>
      val prediction = model.predict(point.features)
      (point.label, prediction)
    }
    valuesAndPreds.collect().foreach(println)
    val MSE = valuesAndPreds.map { case (v, p) => math.pow((v - p), 2) }.mean()
    println("training Mean Squared Error = " + MSE)

    // Save and load model
    model.save(sc, "myModelPath")
    val sameModel = LinearRegressionModel.load(sc, "myModelPath")
  }
}

结果:

weights: [-4.062601003207354E25], intercept: -9.484399253945647E24

更新 -使用.train方法 - 添加 1.0 作为拦截的附录。 数据以这种方式出现 1.0 附录

您正在使用 run,这意味着您传入的数据被解释为 "configured parameters" 而不是要回归的特征。

docs 包含很好的训练示例,然后 运行 您的模型:

//note the "train" instead of "run"
val numIterations = 1000
val model =  LinearRegressionWithSGD.train(parsedData, numIterations)

结果是更准确的权重:

scala> model.weights
res4: org.apache.spark.mllib.linalg.Vector = [0.7674418604651163]

如果您想添加一个截距,只需将一个 1.0 值作为一个特征放在您的密集向量中。修改您的示例代码:

...
LabeledPoint(Parts(0).toDouble, Vectors.dense(Array(1.0) ++ parts(1).split(' ').map(_.toDouble)))
...

第一个特征就是你的拦截。