我应该在再训练期间重新标准化训练数据吗？

Question

我是运行一个简单的 keras 深度学习，我会训练一次，然后每个月在新数据可用时重新训练。

我的数据由货币价值组成，因此我将首先使用 StandardScaler() 标准化我的数据，但是一旦有新数据进入并且我想重新训练，我可以使用相同的 StandardScaler 对象吗？因为让我们假设新数据的最大数据点高于我当前的最大值，因此会改变整个数据集的标准化。

我应该重新标准化还是可以对新数据使用相同的标准化？

Answer 1

根据我从你的问题中了解到的情况，当你使用新的训练数据时，输入数据将与用于计算标准化参数的数据不同。

在这种情况下，新的数据输入可能会超出您标准化的值范围。

但是为了有一个好的预测模型，训练数据和未来的数据需要有紧密的分布，否则，你的模型将无法按预期工作。

所以我认为最好重新标准化你的训练数据。并确保对与验证集分开的训练进行标准化，即使用训练集的均值和验证集，而不是验证集的均值：

scaled_train =  (train - train_mean) / train_std_deviation

scaled_test = (test - train_mean) / train_std_deviation

Should I restandardize training data during retraining?