训练时杀死进程
process killed while training
我正在训练机器学习模型,倾向于使用 GAN 算法进行图像处理
它已经在 tensorflow 后端完成,我已经在 8 gpus 上拆分了工作
现在当我开始我的训练脚本时它给出了以下错误
Process finished with exit code 137 (interrupted by signal 9: SIGKILL)
任何人都可以破解这个
我一直在搜索很多,但没有解决这个问题的方法
我能找到的东西取决于记忆之湖……提前致谢,如有任何歧义请通知我
正如某人的评论所表明的,您 运行 似乎内存不足。除此之外,退出代码 137 可能意味着 Out Of Memory Killer 杀死了您的进程。关于它如何选择杀死哪个进程有一个很好的解释 here 我经常参考。
在您的盒子上,您可以通过 运行ning dmesg
确认 OOM 杀手的参与
要了解您的进程有多少可用内存,您可以 运行:
cat /proc/meminfo | grep MemTotal
尝试使用较小的批量大小,这可能会解决内存问题。
我正在训练机器学习模型,倾向于使用 GAN 算法进行图像处理 它已经在 tensorflow 后端完成,我已经在 8 gpus 上拆分了工作 现在当我开始我的训练脚本时它给出了以下错误
Process finished with exit code 137 (interrupted by signal 9: SIGKILL)
任何人都可以破解这个 我一直在搜索很多,但没有解决这个问题的方法 我能找到的东西取决于记忆之湖……提前致谢,如有任何歧义请通知我
正如某人的评论所表明的,您 运行 似乎内存不足。除此之外,退出代码 137 可能意味着 Out Of Memory Killer 杀死了您的进程。关于它如何选择杀死哪个进程有一个很好的解释 here 我经常参考。
在您的盒子上,您可以通过 运行ning dmesg
要了解您的进程有多少可用内存,您可以 运行:
cat /proc/meminfo | grep MemTotal
尝试使用较小的批量大小,这可能会解决内存问题。