是否可以在没有安装 Spark 的情况下训练和使用 MLLib 分类器?
Can MLLib classifiers be trained and used without a Spark installation?
我想使用 MLLib 提供的一些分类器(随机森林等),但我想在不连接到 Spark 集群的情况下使用它们。
如果我需要以某种方式 运行 处理一些 Spark 内容以便我可以使用 Spark 上下文,那很好。但是我一直找不到此类用例的任何信息或示例。
所以我的两个问题是:
- 有没有办法在完全没有 Spark 上下文的情况下使用 MLLib 分类器?
- 否则,我可以通过在进程中启动 Spark 上下文来使用它们,而不需要任何类型的实际 Spark 安装吗?
org.apache.spark.mllib
型号:
- 没有 Spark 集群无法训练。
- 通常可用于没有集群的预测,但像 ALS 这样的分布式模型除外。
org.apache.spark.ml
型号:
- 需要 Spark 集群进行训练。
- 需要 Spark 集群进行预测,尽管将来可能会发生变化 (https://issues.apache.org/jira/browse/SPARK-10413)
有许多第三方工具旨在将 Spark ml
模型导出为可在 Spark 不可知环境中使用的形式(jpmml-spark
和 modeldb
以枚举一些,没有特别偏好)。
Spark mllib
模型也有有限的 PMML 支持。
商业供应商通常会提供自己的工具来生产化 Spark 模型。
您当然可以使用local
"cluster",但对于大多数可能的应用程序来说,它可能仍然有点重。启动一个完整的上下文至少需要几秒钟,并且占用大量内存。
还有:
- Best Practice to launch Spark Applications via Web Application?
我想使用 MLLib 提供的一些分类器(随机森林等),但我想在不连接到 Spark 集群的情况下使用它们。
如果我需要以某种方式 运行 处理一些 Spark 内容以便我可以使用 Spark 上下文,那很好。但是我一直找不到此类用例的任何信息或示例。
所以我的两个问题是:
- 有没有办法在完全没有 Spark 上下文的情况下使用 MLLib 分类器?
- 否则,我可以通过在进程中启动 Spark 上下文来使用它们,而不需要任何类型的实际 Spark 安装吗?
org.apache.spark.mllib
型号:
- 没有 Spark 集群无法训练。
- 通常可用于没有集群的预测,但像 ALS 这样的分布式模型除外。
org.apache.spark.ml
型号:
- 需要 Spark 集群进行训练。
- 需要 Spark 集群进行预测,尽管将来可能会发生变化 (https://issues.apache.org/jira/browse/SPARK-10413)
有许多第三方工具旨在将 Spark ml
模型导出为可在 Spark 不可知环境中使用的形式(jpmml-spark
和 modeldb
以枚举一些,没有特别偏好)。
Spark mllib
模型也有有限的 PMML 支持。
商业供应商通常会提供自己的工具来生产化 Spark 模型。
您当然可以使用local
"cluster",但对于大多数可能的应用程序来说,它可能仍然有点重。启动一个完整的上下文至少需要几秒钟,并且占用大量内存。
还有:
- Best Practice to launch Spark Applications via Web Application?