Play Framework with Spark MLib vs PredictionIO

Play Framework with Spark MLib vs PredictionIO

早上好,

目前我正在探索为我工作的公司构建内部平台的选择。我们团队负责公司的数据仓库和报表。

随着我们的发展,我们将开发一个 Intranet 来满足公司的一些必需品,现在一段时间以来,我一直在考虑将 scala(和 PlayFramework)作为解决方案。

这还将涉及大量机器学习,以聚类客户、预测销售演变等。这是我开始在 Spark ML 中思考并遇到 PredictionIO 的时候。

当我们将我们的技能转向数据科学时,us/company 最受益和教授的是什么:

我不是要根据意见提出问题,而是要从您的经验/架构/解决方案中学习。

谢谢

两者都是不错的选择:1. 如果您是 ML 的新手,请使用 PredictionIO,容易上手,但会限制您的使用时间 运行,2. 使用 spark 如果您对 data sciencedata engineering team 有信心,spark 具有出色且易于使用的 api 以及广泛的 ML 库,说是为了把将事情投入生产,您将需要一些分布式 spark 知识-经验,有时要使其高效可靠是很棘手的。

选项如下:

  1. sparkdatabricks cloudspark贵但是好用,没有数据工程
  2. PredictionIO 如果您确定他们 ML 可以解决您所有的业务案例
  3. sparkgoogle dataproc 中,易于管理的集群比 aws 少 60%,仍然需要一些工程

总结:PredictionIO 用于快速修复,spark 用于长期数据 - 科学/工程开发。您可以从 databricks 开始,以最大程度地减少专业知识开销,然后逐步转移到 dataproc 以最大程度地减少成本

PredictionIO 将 Spark 的 MLLib 用于他们的大部分引擎模板。

我不确定你为什么要将两者分开?

PredictionIO 与 Spark 一样灵活,并且可以选择使用其他库,例如 deeplearning4j 和 H2O 等。