EMR 集群上未安装 Spark

Spark not installed on EMR cluster

我已经在 EMR 集群上使用 Spark 几个星期了,没有出现任何问题——设置是使用 AMI 3.8.0 和 Spark 1.3.1,我将“-x”作为参数传递给 Spark (没有这个它似乎没有安装)。

我想升级到更新版本的 Spark,今天使用 emr-4.1.0 AMI 启动了一个集群,其中包含 Spark 1.5.0。当集群启动时,它声称已成功安装 Spark(至少在 AWS 的集群管理页面上)但是当我 ssh 进入 'hadoop@[IP address]' 时,我在 'hadoop' 目录中看不到任何东西,其中安装了以前版本的 Spark(我也尝试过使用其他应用程序并得到相同的结果,并尝试以 ec2-user 身份通过 ssh 登录,但 Spark 也未安装在那里)。当我使用 emr-4.1.0 AMI 启动集群时,我没有将“-x”参数传递给 Spark 的选项,我想知道我是否遗漏了什么。

有人知道我做错了什么吗?

非常感谢。

这实际上已经解决了,相当简单。

在以前的 AMI 中,Spark 和其他应用程序的所有路径都是 hadoop 文件夹中可用的软链接。在较新的 AMI 中,这些已被删除,但应用程序仍然安装并且可以通过 'spark-shell'(例如)在命令行访问。