使用 Director 在 EC2 上部署 Cloudera 集群 bootstrap 失败错误

Cloudera Cluster Deployment bootstrap failed error on EC2 using Director

我已经在 EC2 上成功部署了 Cloudera Director 和 Cloudera Manager。我可以从浏览器访问 director 和 manager 实例,并且可以对这些实例执行 ssh。 Cloudera Manager 服务器和代理 运行 正常并通过 运行 按照命令进行检查。

下一步是 - 我想部署集群。然而它失败了,我得到 Bootstrap failed error。我检查了 director 上的 application.log 文件,发现异常为 - 原因:

java.net.ConnectException: ConnectException invoking http://:7180/api/v6/commands/158: Connection refused (Connection refused)

检查服务状态后,我发现在集群部署过程中,cloudera-scm-manager 服务(cloudera-scm-server)以某种方式停止了。但是,在部署集群之前,我已经验证了 cloudera-scm-server 服务已经启动并且 运行.

我多次尝试部署集群并同时使用 t2 小型和 m4 大型实例类型。我得到同样的例外。

出现错误后,如果我重新启动 cloudera-scm-service,它会启动,并且工作正常。但是在集群部署期间它会自动停止,我猜这会导致集群部署失败。不确定如何以及为什么?

知道可能是什么问题吗?有人可以提供任何 pointers/help 来解决这个问题吗?

用于部署的版本详细信息如下 -

任何help/input/pointers解决这个问题的,不胜感激。

提前致谢。

-皮库

皮库

根据您的症状,我的第一个猜测是您的 CM 实例太小。 Linux 有一个 OOM 杀手,如果 OS 到 运行 没有足够的内存,它将终止任意进程。这可能是您没有将 cloudera-scm-service 视为 运行ning 的原因。我相信你可以在 /var/log/messages 中找到涉及 OOM Killer 的 "smoking gun"。

有关实例类型的建议,请参阅适用于 AWS 部署的 Cloudera 企业参考架构。 http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_aws.pdf

祝你好运! 大卫