使用 Director 在 EC2 上部署 Cloudera 集群 bootstrap 失败错误
Cloudera Cluster Deployment bootstrap failed error on EC2 using Director
我已经在 EC2 上成功部署了 Cloudera Director 和 Cloudera Manager。我可以从浏览器访问 director 和 manager 实例,并且可以对这些实例执行 ssh。 Cloudera Manager 服务器和代理 运行 正常并通过 运行 按照命令进行检查。
下一步是 - 我想部署集群。然而它失败了,我得到 Bootstrap failed error
。我检查了 director 上的 application.log 文件,发现异常为 - 原因:
java.net.ConnectException: ConnectException invoking http://:7180/api/v6/commands/158: Connection refused (Connection refused)
检查服务状态后,我发现在集群部署过程中,cloudera-scm-manager 服务(cloudera-scm-server)以某种方式停止了。但是,在部署集群之前,我已经验证了 cloudera-scm-server 服务已经启动并且 运行.
我多次尝试部署集群并同时使用 t2 小型和 m4 大型实例类型。我得到同样的例外。
出现错误后,如果我重新启动 cloudera-scm-service,它会启动,并且工作正常。但是在集群部署期间它会自动停止,我猜这会导致集群部署失败。不确定如何以及为什么?
知道可能是什么问题吗?有人可以提供任何 pointers/help 来解决这个问题吗?
用于部署的版本详细信息如下 -
- Cloudera Director 版本 - 2.4.1
- Cloudera Manager 版本 - 5.11.1
- EC2 实例 - 尝试了 t2 小型和 m4 大型实例类型。
- EC2 实例 OS - RHEL 6.7,64 位
- 已选择集群配置 - 1 个主节点、1 个工作节点、1 个网关
- 已选择集群服务 - YARN 上带有 Spark 的核心 Hadoop(这包括以下服务 - HDFS、Hive、Hue、Oozie、YARN 上的 Spark、YARN、ZooKeeper)
任何help/input/pointers解决这个问题的,不胜感激。
提前致谢。
-皮库
皮库
根据您的症状,我的第一个猜测是您的 CM 实例太小。 Linux 有一个 OOM 杀手,如果 OS 到 运行 没有足够的内存,它将终止任意进程。这可能是您没有将 cloudera-scm-service 视为 运行ning 的原因。我相信你可以在 /var/log/messages 中找到涉及 OOM Killer 的 "smoking gun"。
有关实例类型的建议,请参阅适用于 AWS 部署的 Cloudera 企业参考架构。
http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_aws.pdf
祝你好运!
大卫
我已经在 EC2 上成功部署了 Cloudera Director 和 Cloudera Manager。我可以从浏览器访问 director 和 manager 实例,并且可以对这些实例执行 ssh。 Cloudera Manager 服务器和代理 运行 正常并通过 运行 按照命令进行检查。
下一步是 - 我想部署集群。然而它失败了,我得到 Bootstrap failed error
。我检查了 director 上的 application.log 文件,发现异常为 - 原因:
java.net.ConnectException: ConnectException invoking http://:7180/api/v6/commands/158: Connection refused (Connection refused)
检查服务状态后,我发现在集群部署过程中,cloudera-scm-manager 服务(cloudera-scm-server)以某种方式停止了。但是,在部署集群之前,我已经验证了 cloudera-scm-server 服务已经启动并且 运行.
我多次尝试部署集群并同时使用 t2 小型和 m4 大型实例类型。我得到同样的例外。
出现错误后,如果我重新启动 cloudera-scm-service,它会启动,并且工作正常。但是在集群部署期间它会自动停止,我猜这会导致集群部署失败。不确定如何以及为什么?
知道可能是什么问题吗?有人可以提供任何 pointers/help 来解决这个问题吗?
用于部署的版本详细信息如下 -
- Cloudera Director 版本 - 2.4.1
- Cloudera Manager 版本 - 5.11.1
- EC2 实例 - 尝试了 t2 小型和 m4 大型实例类型。
- EC2 实例 OS - RHEL 6.7,64 位
- 已选择集群配置 - 1 个主节点、1 个工作节点、1 个网关
- 已选择集群服务 - YARN 上带有 Spark 的核心 Hadoop(这包括以下服务 - HDFS、Hive、Hue、Oozie、YARN 上的 Spark、YARN、ZooKeeper)
任何help/input/pointers解决这个问题的,不胜感激。
提前致谢。
-皮库
皮库
根据您的症状,我的第一个猜测是您的 CM 实例太小。 Linux 有一个 OOM 杀手,如果 OS 到 运行 没有足够的内存,它将终止任意进程。这可能是您没有将 cloudera-scm-service 视为 运行ning 的原因。我相信你可以在 /var/log/messages 中找到涉及 OOM Killer 的 "smoking gun"。
有关实例类型的建议,请参阅适用于 AWS 部署的 Cloudera 企业参考架构。 http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_aws.pdf
祝你好运! 大卫