Spark MLlib 推荐引擎的方法

Spark MLlib recommender engine's methods

我正在使用 pySpark MLlib 和开箱即用的 ALS 方法进行协同过滤。只是想知道,Spark 是否提供其他一些过滤方法(用于计算距离),例如 Pearson 或 Cosine?它们可以在 Spark 环境中完成吗?

非常感谢!

是的,Spark 具有余弦相似度的实现。

https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

scala 中的示例

    // Load and parse the data file.
    val rows = sc.textFile(params.inputFile).map { line =>
      val values = line.split(' ').map(_.toDouble)
      Vectors.dense(values)
    }.cache()
    val mat = new RowMatrix(rows)
    val exact = mat.columnSimilarities()