机器学习预测和规范化

Machine Learning Predictions and Normalization

我在训练我的模型之前使用 z-score 来规范化我的数据。当我每天做预测时,我每天的观察结果往往很少,也许只有十几个。我的问题是,我可以单独对测试数据进行归一化,还是应该将其附加到整个训练集以对其进行归一化?

我问的原因是,归一化是基于均值和 std_dev,如果我的数据集仅包含一些观察值,这显然可能看起来非常不同。

使用经过非常不同的数据分布训练的模型对测试集进行预测当然不是一个好主意。我会使用与您的训练数据相同的均值和标准差来标准化您的测试集。

您的所有数据都需要采用相同的单位。除此之外,这意味着您需要对所有输入使用相同的规范化转换。您不需要在训练 本身 中包含新数据——但是,保留规范化的参数( mb y = mx + b) 并在收到它们时将其应用于测试数据。