使用 export_savedmodel 导出 KMeans 模型以部署在 ml-engine 上

Export a KMeans model using export_savedmodel to deploy on ml-engine

我正在使用 tensorflow.contrib.learn.KMeansClustering 进行 K 均值聚类。

我可以使用它的默认模型来预测本地,但由于我想使用 ml-engine 在线预测,我必须将它导出为 export_savedmodel 格式。

我有 google 很多地方,但由于 KMeansClustering class 不需要特征列,所以我不知道如何为 export_savedmodel[构建正确的 serving_input_fn

这是我的代码

# Generate input_fn
def gen_input(data):
    return tf.constant(data.as_matrix(), tf.float32, data.shape), None

# Declare dataset + export model path
TRAIN = 'train.csv'
MODEL = 'model'

# Read dataset
body = pd.read_csv(
    file_io.FileIO(TRAIN, mode='r'),
    delimiter=',',
    header=None,
    engine='python'
)

# Declare K-Means
km = KMeansClustering(
    num_clusters=2,
    model_dir=MODEL,
    relative_tolerance=0.1
)

est = km.fit(input_fn=lambda: gen_input(body))

# This place is where I stuck
fcols = [tf.contrib.layers.real_valued_column('x', dimension=5)]
fspec = tf.contrib.layers.create_feature_spec_for_parsing(fcols)
serving_input_fn = tf.contrib.learn.python.learn.\
                   utils.input_fn_utils.build_parsing_serving_input_fn(fspec)
est.export_savedmodel(MODEL, serving_input_fn)

这是我的玩具train.csv

1,2,3,4,5
2,3,4,5,6
3,4,5,6,7
5,4,3,2,1
7,6,5,4,3
8,7,6,5,4

导出的模型格式为 saved_model.pb 及其变量文件夹

将模型部署到 ml-engine 是成功的,但是当使用相同的 train.csv 进行预测时,出现以下错误

{"error": "Prediction failed: Exception during model execution: AbortionError(code=StatusCode.INVALID_ARGUMENT, details=\"Name: <unknown>, Feature: x (data type: float) is required but could not be found.\n\t [[Node: ParseExample/ParseExample = ParseExample[Ndense=1, Nsparse=0, Tdense=[DT_FLOAT], _output_shapes=-1,5, dense_shapes=5, sparse_types=[], _device=\"/job:localhost/replica:0/task:0/cpu:0\"](_arg_input_example_tensor_0_0, ParseExample/ParseExample/names, ParseExample/ParseExample/dense_keys_0, ParseExample/Const)]]\")"}

我为此苦苦挣扎了一个月,而我找到的所有文件都是纯 API

期待您的建议

提前致谢

人口普查示例 shows 如何为 CSV 设置 serving_input_fn。针对您的示例进行了调整:

CSV_COLUMNS = ['feat1', 'feat2', 'feat3', 'feat4', 'feat5']
CSV_COLUMN_DEFAULTS = [[0.0],[0.0],[0.0],[0.0],[0.0]] 

def parse_csv(rows_string_tensor):
  """Takes the string input tensor and returns a dict of rank-2 tensors."""

  # Takes a rank-1 tensor and converts it into rank-2 tensor
  # Example if the data is ['csv,line,1', 'csv,line,2', ..] to
  # [['csv,line,1'], ['csv,line,2']] which after parsing will result in a
  # tuple of tensors: [['csv'], ['csv']], [['line'], ['line']], [[1], [2]]
  row_columns = tf.expand_dims(rows_string_tensor, -1)
  columns = tf.decode_csv(row_columns, record_defaults=CSV_COLUMN_DEFAULTS)
  features = dict(zip(CSV_COLUMNS, columns))

  return features

def csv_serving_input_fn():
  """Build the serving inputs."""
  csv_row = tf.placeholder(
      shape=[None],
      dtype=tf.string
  )
  features = parse_csv(csv_row)
  return tf.contrib.learn.InputFnOps(features, None, {'csv_row': csv_row})

# No need for fcols/fspec
est.export_savedmodel(MODEL, serving_input_fn)

TensorFlow 1.4 将至少简化其中的一部分。

此外,考虑使用 JSON,因为这是更标准的服务方法。很乐意根据要求提供详细信息。