使用 Director 在 EC2 上部署 Cloudera 集群 bootstrap 失败错误

Cloudera Cluster Deployment bootstrap failed error on EC2 using Director

我已经在 EC2 上成功部署了 Cloudera Director 和 Cloudera Manager。我可以从浏览器访问 director 和 manager 实例，并且可以对这些实例执行 ssh。 Cloudera Manager 服务器和代理运行正常并通过运行按照命令进行检查。

下一步是 - 我想部署集群。然而它失败了，我得到 Bootstrap failed error。我检查了 director 上的 application.log 文件，发现异常为 - 原因：

java.net.ConnectException: ConnectException invoking http://:7180/api/v6/commands/158: Connection refused (Connection refused)

检查服务状态后，我发现在集群部署过程中，cloudera-scm-manager 服务（cloudera-scm-server）以某种方式停止了。但是，在部署集群之前，我已经验证了 cloudera-scm-server 服务已经启动并且运行.

我多次尝试部署集群并同时使用 t2 小型和 m4 大型实例类型。我得到同样的例外。

出现错误后，如果我重新启动 cloudera-scm-service，它会启动，并且工作正常。但是在集群部署期间它会自动停止，我猜这会导致集群部署失败。不确定如何以及为什么？

知道可能是什么问题吗？有人可以提供任何 pointers/help 来解决这个问题吗？

用于部署的版本详细信息如下 -

Cloudera Director 版本 - 2.4.1
Cloudera Manager 版本 - 5.11.1
EC2 实例 - 尝试了 t2 小型和 m4 大型实例类型。
EC2 实例 OS - RHEL 6.7，64 位
已选择集群配置 - 1 个主节点、1 个工作节点、1 个网关
已选择集群服务 - YARN 上带有 Spark 的核心 Hadoop（这包括以下服务 - HDFS、Hive、Hue、Oozie、YARN 上的 Spark、YARN、ZooKeeper）

任何help/input/pointers解决这个问题的，不胜感激。

提前致谢。

-皮库

皮库

根据您的症状，我的第一个猜测是您的 CM 实例太小。 Linux 有一个 OOM 杀手，如果 OS 到运行没有足够的内存，它将终止任意进程。这可能是您没有将 cloudera-scm-service 视为运行ning 的原因。我相信你可以在 /var/log/messages 中找到涉及 OOM Killer 的 "smoking gun"。

有关实例类型的建议，请参阅适用于 AWS 部署的 Cloudera 企业参考架构。 http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_aws.pdf

祝你好运！大卫

使用 Director 在 EC2 上部署 Cloudera 集群 bootstrap 失败错误

Cloudera Cluster Deployment bootstrap failed error on EC2 using Director

cloudera

cloudera-manager

cloudera-cdh

cloudera-director

cloudera-quickstart-vm