openmpi runtime error: Hello World run on hosts
openmpi runtime error: Hello World run on hosts
我正在尝试设置集群。到目前为止,我只用 1 个主机和 1 个从机对其进行测试。 运行 master 的脚本开始打印 HelloWorld,但随后出现以下错误:
Primary job terminated normally, but 1 process returned a non-zero exit code.. Per user-direction, the job has been aborted.
它不断打印 HelloWorld 并在一段时间后:
mpirun detected that one or more processes exited with non-zero status, thus causing the job to be terminated. The first process to do so was:
Process name: [[62648,1],2]
Exit code: 2
然后代码停止。一次偶然的机会,我尝试 运行 来自奴隶的脚本并且它有效。我不知道为什么。
我已经设置了无密码 SSH 和 运行ning 一个位于 nfs 挂载文件夹中的文件。
你能帮帮我吗?
谢谢
已解决:我分析了我修改过的所有配置文件,最后在 /etc/hosts 中出现了一个错误。这是关于程序在从节点启动到主节点而不是从节点启动时工作。关于程序停止,它与无法找到文件的节点有某种关系运行。修复了此设置再次 nfs。
感谢您的帮助,希望这对其他用户有用。
我正在尝试设置集群。到目前为止,我只用 1 个主机和 1 个从机对其进行测试。 运行 master 的脚本开始打印 HelloWorld,但随后出现以下错误:
Primary job terminated normally, but 1 process returned a non-zero exit code.. Per user-direction, the job has been aborted.
它不断打印 HelloWorld 并在一段时间后:
mpirun detected that one or more processes exited with non-zero status, thus causing the job to be terminated. The first process to do so was:
Process name: [[62648,1],2]
Exit code: 2
然后代码停止。一次偶然的机会,我尝试 运行 来自奴隶的脚本并且它有效。我不知道为什么。 我已经设置了无密码 SSH 和 运行ning 一个位于 nfs 挂载文件夹中的文件。 你能帮帮我吗?
谢谢
已解决:我分析了我修改过的所有配置文件,最后在 /etc/hosts 中出现了一个错误。这是关于程序在从节点启动到主节点而不是从节点启动时工作。关于程序停止,它与无法找到文件的节点有某种关系运行。修复了此设置再次 nfs。 感谢您的帮助,希望这对其他用户有用。