使用 tensorflow tf-transform 进行数据规范化

Question

我正在使用 Tensorflow 对我自己的数据集进行神经网络预测。我做的第一个是在我的计算机中使用一个小数据集的模型。在此之后，我稍微更改了代码，以便使用具有更大数据集的 Google Cloud ML-Engine 在 ML-Engine 中实现训练和预测。

我正在对 panda 数据框中的特征进行归一化，但这会引入偏斜，我得到的预测结果很差。

我真正想要的是使用库 tf-transform 来规范化图中的数据。为此，我想创建一个函数 preprocessing_fn 并使用“tft.scale_to_0_1”。 https://github.com/tensorflow/transform/blob/master/getting_started.md

我发现的主要问题是在尝试进行预测时。我正在寻找互联网，但我没有找到任何在训练中对数据进行标准化的导出模型示例。在我发现的所有示例中，数据在任何地方都没有标准化。

我想知道的是如果我在训练中对数据进行归一化并发送一个带有新数据的新实例来进行预测，这些数据是如何归一化的？

可能在 Tensorflow 数据管道中？进行归一化的变量保存在某个地方？

总而言之：我正在寻找一种方法来标准化我的模型的输入，然后新实例也变得标准化。

Answer 1

首先，您并不真的需要 tf.transform。您需要做的就是编写一个从 training/eval input_fn 和您的服务 input_fn.

调用的函数

例如，假设您已对整个数据集使用 Pandas 来计算最小值和最大值

def add_engineered(features):
  min_x = 22
  max_x = 43
  features['x'] = (features['x'] - min_x) / (max_x - min_x)
  return features

然后，在您的 input_fn 中，通过调用 add_engineered:

包装您 return 的功能

def input_fn():
  features = ...
  label = ...
  return add_engineered(features), label

并且在您的 serving_input fn 中，确保通过调用 add_engineered:[=15 同样包装 returned 功能（不是 feature_placeholders） =]

def serving_input_fn():
    feature_placeholders = ...
    features = feature_placeholders.copy()
    return tf.estimator.export.ServingInputReceiver(
         add_engineered(features), feature_placeholders)

现在，您在预测时的 JSON 输入只需要包含未缩放的原始值。

这是此方法的完整工作示例。

https://github.com/GoogleCloudPlatform/training-data-analyst/blob/master/courses/machine_learning/feateng/taxifare/trainer/model.py#L130

tf.transform 提供了一个两阶段过程：计算最小值、最大值的分析步骤和将缩放比例插入 TensorFlow 图表的图表修改步骤。因此，要使用 tf.transform，您首先需要编写一个 Dataflow 管道进行分析，然后在您的 TensorFlow 代码中插入对 tf.scale_0_to_1 的调用。这是一个这样做的例子：

https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/criteo_tft

add_engineered() 方法更简单，这也是我的建议。 tf.transform 如果您的数据分布会随着时间的推移发生变化，那么您需要使用 tf.transform 方法，因此您希望自动化整个管道（例如，用于连续训练）。

使用 tensorflow tf-transform 进行数据规范化

Data Normalization with tensorflow tf-transform

python

google-cloud-platform

tensorflow

google-cloud-ml

tensorflow-transform