Ubuntu CfnCluster 映像中的计算节点未执行的任务

Question

我正在尝试使用 CfnCluster 1.2.1 进行 GPU 计算，并且我正在使用基于 Ubuntu 14.04 CfnCluster AMI 的自定义 AMI。

一切都在 CloudFormation 控制台中正确创建，尽管当我从主服务器使用 qsub 向 Oracle Grid Engine 提交新测试任务时，根据 qstat，它永远不会从队列中执行。它始终处于状态 "qw" 并且永远不会进入状态 "r".

它似乎适用于 Amazon Linux AMI（使用用户 ec2-user 而不是 ubuntu）和完全相同的配置。此外，主实例向集群宣布剩余任务数作为指标，新的计算实例因此自动缩放。

CfnCluster 或 Oracle Grid Engine 提供什么机制来进一步调试它？我查看了日志文件，但没有找到任何相关内容。这种行为的原因可能是什么？

谢谢，

迭戈

Answer 1

类似于

从您的 qhost 输出来看，您的机器 "ip-10-0-0-47" 似乎已在 SGE 中正确配置。但是，在 "ip-10-0-0-47" 上 sge_execd 不是运行或配置不正确。如果是，qhost 将报告 "ip-10-0-0-47".

的统计信息

Answer 2

中描述的问题相同

我通过将以下行添加到 CfnCluster 配置文件来修复它：

base_os = ubuntu1404

如果指定了custom_ami但没有指定base_os，则默认使用Amazon Linux，它使用不同的方法来配置SGE。如果 base_os 和 custom_ami os 不同，则 CfnCluster 执行的 SGE 配置可能存在问题。

Tasks not executed by the Compute Nodes in Ubuntu CfnCluster image