如果打开分析,进程就会终止

Process dies if profiling is turned on

我想在 CloudML 上分析 Tensorflow 模型。当我使用 tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE) 时,我的进程死于非零退出代码,没有发生的细节。

我尝试添加和删除打开此选项的代码,并且此选项与进程死亡之间​​有 100% 的相关性。

错误信息是'The replica master 0 exited with a non-zero status of 250. Termination reason: Error. To find out more about why your job exited please check the logs'

如何诊断和解决此问题?

对于您的问题,退出状态基本上意味着您的代码在 运行 期间获得了 SIGABRT。

更新: 存在加载 libcupti 的问题。 Cloud ML Engine 发现了一个与之相关的错误。修复正在进行中。该问题将在以后的版本中解决。

它已通过使用 tensorflow 1.1.0 而不是 1.0.0 修复。但是,未显示分析信息。