神经网络中数据拆分前的归一化

Normalization before data split in Neural Network

我正在尝试运行在我的数据集上使用一个隐藏层的 MLP 回归器。我正在对我的数据进行标准化，但我想弄清楚在拆分训练和测试集中的数据集之后或之前进行标准化是否重要。我想知道如果我在数据拆分之前进行标准化，我的预测值是否会有差异。

你绝对应该在分裂之前这样做。

想象一下，将 [1,2,3,4,5,6,7,8,9,10] 作为输入，它被拆分为 [1, 2, 3, 4, 5, 7, 9 , 10] 用于训练，[6,8] 用于测试。

很明显，两个样本的最小-最大范围以及均值和标准差完全不同，因此通过应用标准化 "post-split"，您完全打乱了样本中值之间的关系第一组和第二组。

是也不是。如果训练集和测试集的均值和方差不同，标准化会导致不同的结果。

话虽这么说，一个好的训练集和测试集应该足够相似，以便数据点以相似的方式分布，并且 post-拆分标准化应该给出相同的结果。