如果打开分析,进程就会终止
Process dies if profiling is turned on
我想在 CloudML 上分析 Tensorflow 模型。当我使用 tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE) 时,我的进程死于非零退出代码,没有发生的细节。
我尝试添加和删除打开此选项的代码,并且此选项与进程死亡之间有 100% 的相关性。
错误信息是'The replica master 0 exited with a non-zero status of 250. Termination reason: Error. To find out more about why your job exited please check the logs'
如何诊断和解决此问题?
对于您的问题,退出状态基本上意味着您的代码在 运行 期间获得了 SIGABRT。
更新:
存在加载 libcupti 的问题。 Cloud ML Engine 发现了一个与之相关的错误。修复正在进行中。该问题将在以后的版本中解决。
它已通过使用 tensorflow 1.1.0 而不是 1.0.0 修复。但是,未显示分析信息。
我想在 CloudML 上分析 Tensorflow 模型。当我使用 tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE) 时,我的进程死于非零退出代码,没有发生的细节。
我尝试添加和删除打开此选项的代码,并且此选项与进程死亡之间有 100% 的相关性。
错误信息是'The replica master 0 exited with a non-zero status of 250. Termination reason: Error. To find out more about why your job exited please check the logs'
如何诊断和解决此问题?
对于您的问题,退出状态基本上意味着您的代码在 运行 期间获得了 SIGABRT。
更新: 存在加载 libcupti 的问题。 Cloud ML Engine 发现了一个与之相关的错误。修复正在进行中。该问题将在以后的版本中解决。
它已通过使用 tensorflow 1.1.0 而不是 1.0.0 修复。但是,未显示分析信息。