使用 Ambari 2.4.2.0 安装 spark 2.1.0

installation for spark 2.1.0 with Ambari 2.4.2.0

我对 Spark 和 Ambari 的集群安装比较陌生。最近,我接到了一个任务,要在一个集群上安装 Spark 2.1.0,该集群预装了带有 Spark 1.6.2 和 HDFS & YARN 2.7.3 的 Ambari。

我的任务是安装 Spark 2.1.0,因为它是最新版本,与 RSpark 等具有更好的兼容性。我在互联网上搜索了几天,只在 AWS 或 Spark 2.1.0 上找到了一些安装指南。

例如: http://data-flair.training/blogs/install-deploy-run-spark-2-x-multi-node-cluster-step-by-step-guide/http://spark.apache.org/docs/latest/building-spark.html.

但其中 none 提到不同版本的 Spark 的干扰。由于我需要保留这个集群运行,我想知道集群的一些潜在威胁。

有没有正确的安装方法?非常感谢!

如果你想让你的 SPARK2 安装由 Ambari 管理,那么 SPARK2 必须由 Ambari 提供。

HDP 2.5.3 支持 Spark 2.1.0,但是它带有 Spark 2.0.0 的技术预览。

您的选择是:

  • 手动安装 Spark 2.1.0,不让 Ambari 管理它
  • 使用 Spark 2.0.0 代替 HDP 2.5.3 提供的 Spark 2.1.0
  • 使用不同的堆栈。 IE。 IBM Open Platform (IOP) 4.3 计划于 2017 年发布,它将附带 Spark 2.1.0 支持。您可以立即通过 technical preview release.
  • 开始使用它
  • 升级支持 Spark 2.1 的 HDP (2.6)。
  • 扩展 HDP 2.5 堆栈以支持 Spark 2.1.0。您可以在 wiki 上查看如何自定义和扩展 ambari 堆栈。这将使您可以使用 Spark 2.1.0 并由 ambari 管理它。然而,这将需要大量的工作来实现,而且你是 Ambari 的新手,这将是相当困难的。