在 google 云集群上安装 spark 1.4

installing spark 1.4 on google cloud cluster

我设置了一个 google 计算集群,点击部署
我想使用 spark 1.4 但我得到 spark 1.1.0 有人知道是否可以使用 spark 1.4 设置集群吗?

一个选项是尝试 http://spark-packages.org/package/sigmoidanalytics/spark_gce ,这会部署 Spark 1.2.0,但您可以编辑文件以部署 1.4.0。

我对此也有疑问。这些是我采取的步骤:

  1. 从 github https://github.com/GoogleCloudPlatform/bdutil
  2. 下载 GCE 的 bdutil 副本
  3. 从 spark 网站下载所需的 spark 版本,在本例中为 spark-1.4.1,并将其存储到您控制的 google 计算存储桶中。确保它是一个支持你也将使用 bdutil
  4. 部署的 hadoop 的 spark
  5. 编辑 spark 环境文件 https://github.com/GoogleCloudPlatform/bdutil/blob/master/extensions/spark/spark_env.sh
  6. 将 SPARK_HADOOP2_TARBALL_URI='gs://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz' 更改为 SPARK_HADOOP2_TARBALL_URI='gs://[YOUR SPARK PATH]' 我假设您想要 hadoop 2,如果您想要 hadoop 1,请确保更改正确的变量.
  7. 完成后,从修改后的 bdutil 构建你的 hadoop+spark 集群,之后你应该有一个现代版本的 spark
  8. 你必须确保在执行 bdutil 时使用 -e 命令执行 spark_env.sh,如果你正在安装 hadoop2,你还需要添加 hadoop_2 env我也是。