SGE 提交的作业状态未从 "qw" 改变
SGE submitted job state doesn't change from "qw"
我在 ubuntu 14.04 上使用 Sun Grid Engine 将我的作业排队到 运行 在多核 CPU 上。
我已经在我的系统上安装并设置了 SGE。我创建了一个“hello_world”目录,其中包含两个 shell 脚本,即“hello_world.sh”和“hello_world_qsub.sh”,第一个包括一个简单命令,第二个包括 qsub 命令将第一个脚本文件作为作业提交 运行。
以下是“hello_world.sh”包括的内容:
#!/bin/bash
echo "Hello world" > /home/theodore/tmp/hello_world/hello_world_output.txt
下面是“hello_world_qsub.sh”的内容:
#!/bin/bash
qsub \
-e /home/hello_world/hello_world_qsub.error \
-o /home/hello_world/hello_world_qsub.log \
./hello_world.sh
在对第二个 sh 文件授予权限并运行使用指定目录中的“./hello_world_qsub.sh”命令对其进行设置后,输出是合理的:
Your job 1 ("hello_world.sh") has been submitted
但是“qstat”命令的输出令人沮丧:
job-ID prior name user state submit/start at queue slots ja-task-ID
-----------------------------------------------------------------------------------------------------------------
1 0.50000 hello_worl mhr qw 05/16/2016 20:26:23 1
并且“状态”列始终保留在“qw”上,永远不会更改为“r”。
这是“qstat -j 1”命令的输出:
==============================================================
job_number: 1
exec_file: job_scripts/1
submission_time: Mon May 16 20:26:23 2016
owner: mhr
uid: 1000
group: mhr
gid: 1000
sge_o_home: /home/mhr
sge_o_log_name: mhr
sge_o_path: /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games
sge_o_shell: /bin/bash
sge_o_workdir: /home/mhr/hello_world
sge_o_host: localhost
account: sge
stderr_path_list: NONE:NONE:/home/hello_world/hello_world_qsub.error
mail_list: mhr@localhost
notify: FALSE
job_name: hello_world.sh
stdout_path_list: NONE:NONE:/home/hello_world/hello_world_qsub.log
jobshare: 0
env_list:
script_file: ./hello_world.sh
scheduling info: queue instance "mainqueue@localhost" dropped because it is temporarily not available
All queues dropped because of overload or full
这是“qhost”命令的输出:
HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS
-------------------------------------------------------------------------------
global - - - - - - -
localhost - - - - - - -
我应该怎么做才能让我的工作运行完成他们的任务?
从您的 qhost 输出来看,您的机器 "localhost" 似乎已在 SGE 中正确配置。但是,在 "localhost" 上 sge_execd 不是 运行 或配置不正确。如果是,qhost 将报告 "localhost".
的统计信息
我在 ubuntu 14.04 上使用 Sun Grid Engine 将我的作业排队到 运行 在多核 CPU 上。 我已经在我的系统上安装并设置了 SGE。我创建了一个“hello_world”目录,其中包含两个 shell 脚本,即“hello_world.sh”和“hello_world_qsub.sh”,第一个包括一个简单命令,第二个包括 qsub 命令将第一个脚本文件作为作业提交 运行。 以下是“hello_world.sh”包括的内容:
#!/bin/bash
echo "Hello world" > /home/theodore/tmp/hello_world/hello_world_output.txt
下面是“hello_world_qsub.sh”的内容:
#!/bin/bash
qsub \
-e /home/hello_world/hello_world_qsub.error \
-o /home/hello_world/hello_world_qsub.log \
./hello_world.sh
在对第二个 sh 文件授予权限并运行使用指定目录中的“./hello_world_qsub.sh”命令对其进行设置后,输出是合理的:
Your job 1 ("hello_world.sh") has been submitted
但是“qstat”命令的输出令人沮丧:
job-ID prior name user state submit/start at queue slots ja-task-ID
-----------------------------------------------------------------------------------------------------------------
1 0.50000 hello_worl mhr qw 05/16/2016 20:26:23 1
并且“状态”列始终保留在“qw”上,永远不会更改为“r”。
这是“qstat -j 1”命令的输出:
==============================================================
job_number: 1
exec_file: job_scripts/1
submission_time: Mon May 16 20:26:23 2016
owner: mhr
uid: 1000
group: mhr
gid: 1000
sge_o_home: /home/mhr
sge_o_log_name: mhr
sge_o_path: /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games
sge_o_shell: /bin/bash
sge_o_workdir: /home/mhr/hello_world
sge_o_host: localhost
account: sge
stderr_path_list: NONE:NONE:/home/hello_world/hello_world_qsub.error
mail_list: mhr@localhost
notify: FALSE
job_name: hello_world.sh
stdout_path_list: NONE:NONE:/home/hello_world/hello_world_qsub.log
jobshare: 0
env_list:
script_file: ./hello_world.sh
scheduling info: queue instance "mainqueue@localhost" dropped because it is temporarily not available
All queues dropped because of overload or full
这是“qhost”命令的输出:
HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS
-------------------------------------------------------------------------------
global - - - - - - -
localhost - - - - - - -
我应该怎么做才能让我的工作运行完成他们的任务?
从您的 qhost 输出来看,您的机器 "localhost" 似乎已在 SGE 中正确配置。但是,在 "localhost" 上 sge_execd 不是 运行 或配置不正确。如果是,qhost 将报告 "localhost".
的统计信息