使用自定义 Windows AMI 在 EC2 上 Spark 部署时间长

Spark long deploying time on EC2 with custom Windows AMI

我正在尝试 运行 一个带有一些 Windows 实例的 Spark 集群 Amazon EC2 基础设施,但我面临一些部署时间非常长的问题。

我的项目需要在 Windows 环境中 运行,因此我通过提供的 -a 标志指示它来使用替代 AMI通过 Sparkspark-ec2 脚本。当我 运行 脚本时,进程一直卡住等待实例启动和 运行ning,并显示以下消息:

Waiting for all instances in cluster to enter 'ssh-ready' state.............

当我使用默认 AMI 时,集群在等待几分钟后正常启动。

我已经搜索过其他用户的类似问题,到目前为止我只能找到 this statement 关于 自定义 AMI-s 部署时间长 (请参阅 Josh Rosen 的回答)。

我使用的是 Spark 的 1.2.0 版本。启动集群的调用如下所示:

./spark-ec2 -k MyKeyPair 
            -i MyKeyPair.pem 
            -s 10 
            -a ami-905fe9e7
            --instance-type=t1.micro 
            --region=eu-west-1
            --spark-version=1.2.0
            launch MyCluster

上述AMI是指:

Microsoft Windows Server 2012 R2 Base - ami-905fe9e7
Desc: Microsoft Windows 2012 R2 Standard edition with 64-bit architecture. [English]

任何有关此问题的帮助或声明将不胜感激。

我想我已经找到问题所在了。 Spark 似乎不支持使用其默认脚本在 Windows 环境中创建集群。我认为仍然可以通过一些手动调整来创建集群,但这超出了我有限的知识范围。 Here是官方解释的post。

相反,作为临时解决方案,我正在考虑使用 Microsoft Azure 集群,它刚刚发布了一个实验工具,可以使用 A​​pache Hadoop (Spark) 在他们的 HDinsight 集群上。 Here 是解释它更好的文章。