Ubuntu CfnCluster 映像中的计算节点未执行的任务

Tasks not executed by the Compute Nodes in Ubuntu CfnCluster image

我正在尝试使用 CfnCluster 1.2.1 进行 GPU 计算,并且我正在使用基于 Ubuntu 14.04 CfnCluster AMI 的自定义 AMI。

一切都在 CloudFormation 控制台中正确创建,尽管当我从主服务器使用 qsub 向 Oracle Grid Engine 提交新测试任务时,根据 qstat,它永远不会从队列中执行。它始终处于状态 "qw" 并且永远不会进入状态 "r".

它似乎适用于 Amazon Linux AMI(使用用户 ec2-user 而不是 ubuntu)和完全相同的配置。此外,主实例向集群宣布剩余任务数作为指标,新的计算实例因此自动缩放。

CfnCluster 或 Oracle Grid Engine 提供什么机制来进一步调试它?我查看了日志文件,但没有找到任何相关内容。这种行为的原因可能是什么?

谢谢,

迭戈

类似于

从您的 qhost 输出来看,您的机器 "ip-10-0-0-47" 似乎已在 SGE 中正确配置。但是,在 "ip-10-0-0-47" 上 sge_execd 不是 运行 或配置不正确。如果是,qhost 将报告 "ip-10-0-0-47".

的统计信息

我想我找到了解决办法。这似乎与 https://github.com/awslabs/cfncluster/issues/86#issuecomment-196966385

中描述的问题相同

我通过将以下行添加到 CfnCluster 配置文件来修复它:

base_os = ubuntu1404

如果指定了custom_ami但没有指定base_os,则默认使用Amazon Linux,它使用不同的方法来配置SGE。如果 base_os 和 custom_ami os 不同,则 CfnCluster 执行的 SGE 配置可能存在问题。