训练时杀死进程

process killed while training

我正在训练机器学习模型,倾向于使用 GAN 算法进行图像处理 它已经在 tensorflow 后端完成,我已经在 8 gpus 上拆分了工作 现在当我开始我的训练脚本时它给出了以下错误

Process finished with exit code 137 (interrupted by signal 9: SIGKILL)

任何人都可以破解这个 我一直在搜索很多,但没有解决这个问题的方法 我能找到的东西取决于记忆之湖……提前致谢,如有任何歧义请通知我

正如某人的评论所表明的,您 运行 似乎内存不足。除此之外,退出代码 137 可能意味着 Out Of Memory Killer 杀死了您的进程。关于它如何选择杀死哪个进程有一个很好的解释 here 我经常参考。

在您的盒子上,您可以通过 运行ning dmesg

确认 OOM 杀手的参与

要了解您的进程有多少可用内存,您可以 运行:

cat /proc/meminfo | grep MemTotal

尝试使用较小的批量大小,这可能会解决内存问题。