Google Cloud ML 在训练时以非零状态 245 退出

Question

我尝试使用此示例代码在 Google Cloud ML 上训练我的模型：

import keras
from keras import optimizers
from keras import losses
from keras import metrics
from keras.models import Model, Sequential
from keras.layers import Dense, Lambda, RepeatVector, TimeDistributed
import numpy as np

def test():
    model = Sequential()
    model.add(Dense(2, input_shape=(3,)))
    model.add(RepeatVector(3))
    model.add(TimeDistributed(Dense(3)))
    model.compile(loss=losses.MSE,
                  optimizer=optimizers.RMSprop(lr=0.0001),
                  metrics=[metrics.categorical_accuracy],
                  sample_weight_mode='temporal')
    x = np.random.random((1, 3))
    y = np.random.random((1, 3, 3))
    model.train_on_batch(x, y)

if __name__ == '__main__':
    test()

我收到了这个错误：

The replica master 0 exited with a non-zero status of 245. Termination reason: Error.

详细错误输出较大，所以我粘贴它here in pastebin

Answer 1

注意这个输出：

Module raised an exception for failing to call a subprocess Command '['python', '-m', u'trainer.test', '--job-dir', u'gs://my_test_bucket_keras/s_27_100630']' returned non-zero exit status -11.

而且我猜 google 云将运行您的代码带有一个名为 --job-dir 的额外参数。那么也许您可以尝试在您的示例代码中添加以下代码？

import ...
import argparse

def test():
model = Sequential()
model.add(Dense(2, input_shape=(3,)))
model.add(RepeatVector(3))
model.add(TimeDistributed(Dense(3)))
model.compile(loss=losses.MSE,
              optimizer=optimizers.RMSprop(lr=0.0001),
              metrics=[metrics.categorical_accuracy],
              sample_weight_mode='temporal')
x = np.random.random((1, 3))
y = np.random.random((1, 3, 3))
model.train_on_batch(x, y)

if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    # Input Arguments
    parser.add_argument(
      '--job-dir',
      help='GCS location to write checkpoints and export models',
      required=True
    )
    args = parser.parse_args()
    arguments = args.__dict__

    test()
    # test(**arguments) # or if you want to use this job_dir parameter in your code

不能 100% 确定这会奏效，但我认为您可以尝试一下。另外我有一个post here可以做类似的事情，也许你也可以看看那里。

Answer 2

问题已解决。我所要做的就是使用 tensorflow 1.1.0 而不是默认的 1.0.1

Google Cloud ML 在训练时以非零状态 245 退出

Google Cloud ML exited with a non-zero status of 245 when training

machine-learning

google-cloud-platform

tensorflow

google-cloud-ml

google-cloud-ml-engine