在 ALS 模型中计算 RMSE
calculate RMSE in ALS model
我想在 ALS 模型中计算 RMSE,我找到这样的代码:
val ratings = data.map(_.split(',') match {
case Array(user,item,rate)
=>
Rating(user.toLong,item.toInt,rate.toFloat)
})
val ratingsDF= ratings.toDF
val model = new ALS().setRank(3).setMaxIter(10).fit(ratingsDF)
val predictions = model.transform(ratingsDF)
val evaluator = new RegressionEvaluator().setMetricName("rmse").setLabelCol("rating").setPredictionCol("prediction")
val rmse = evaluator.evaluate(predictions)
System.out.println("Root-mean-square error = " + rose)
但是,我得到 "NaN" 。
不知道是我用的方法不对还是数据本身的问题。
如果代码有误,计算 RMSE 的正确方法是什么?
我只找到这样的方法:
var predictions = model.predict(usersProducts).map { case Rating(user, product, rate) => ((user, product), rate) }
val ratesAndPreds = ratings.map { case Rating(user, product, rate) => ((user, product), rate) }.join(predictions)
val rmse= math.sqrt(ratesAndPreds.map { case ((user, product), (r1, r2)) => val err = (r1 - r2) err * err }.mean())println(s"RMSE = $rmse")
此处不能使用。怎么做?
这似乎是一个缺陷。有关详细信息,请查看此 spark JIRA:https://issues.apache.org/jira/browse/SPARK-14489
When building a Spark ML pipeline containing an ALS estimator, the
metrics "rmse", "mse", "r2" and "mae" all return NaN.
我想在 ALS 模型中计算 RMSE,我找到这样的代码:
val ratings = data.map(_.split(',') match {
case Array(user,item,rate)
=>
Rating(user.toLong,item.toInt,rate.toFloat)
})
val ratingsDF= ratings.toDF
val model = new ALS().setRank(3).setMaxIter(10).fit(ratingsDF)
val predictions = model.transform(ratingsDF)
val evaluator = new RegressionEvaluator().setMetricName("rmse").setLabelCol("rating").setPredictionCol("prediction")
val rmse = evaluator.evaluate(predictions)
System.out.println("Root-mean-square error = " + rose)
但是,我得到 "NaN" 。 不知道是我用的方法不对还是数据本身的问题。 如果代码有误,计算 RMSE 的正确方法是什么? 我只找到这样的方法:
var predictions = model.predict(usersProducts).map { case Rating(user, product, rate) => ((user, product), rate) }
val ratesAndPreds = ratings.map { case Rating(user, product, rate) => ((user, product), rate) }.join(predictions)
val rmse= math.sqrt(ratesAndPreds.map { case ((user, product), (r1, r2)) => val err = (r1 - r2) err * err }.mean())println(s"RMSE = $rmse")
此处不能使用。怎么做?
这似乎是一个缺陷。有关详细信息,请查看此 spark JIRA:https://issues.apache.org/jira/browse/SPARK-14489
When building a Spark ML pipeline containing an ALS estimator, the metrics "rmse", "mse", "r2" and "mae" all return NaN.