是否可以在没有安装 Spark 的情况下训练和使用 MLLib 分类器?

Can MLLib classifiers be trained and used without a Spark installation?

我想使用 MLLib 提供的一些分类器(随机森林等),但我想在不连接到 Spark 集群的情况下使用它们。

如果我需要以某种方式 运行 处理一些 Spark 内容以便我可以使用 Spark 上下文,那很好。但是我一直找不到此类用例的任何信息或示例。

所以我的两个问题是:

org.apache.spark.mllib 型号:

  • 没有 Spark 集群无法训练。
  • 通常可用于没有集群的预测,但像 ALS 这样的分布式模型除外。

org.apache.spark.ml 型号:

有许多第三方工具旨在将 Spark ml 模型导出为可在 Spark 不可知环境中使用的形式(jpmml-sparkmodeldb 以枚举一些,没有特别偏好)。

Spark mllib 模型也有有限的 PMML 支持。

商业供应商通常会提供自己的工具来生产化 Spark 模型。

您当然可以使用local "cluster",但对于大多数可能的应用程序来说,它可能仍然有点重。启动一个完整的上下文至少需要几秒钟,并且占用大量内存。

还有:

  • Best Practice to launch Spark Applications via Web Application?