测试数据集的归一化

Normalisation of test dataset

我有 train(x_train) 和 test(x_test) 数据集,但我不确定如何对其进行归一化。

第一个选项是使用训练数据集的均值和偏差:

(x_train-np.mean(x_train))/np.std(x_train)
(x_test-np.mean(x_train))/np.std(x_train)

第二个选项是结合x_train和x_test得到总体均值和偏差:

x=np.vstack((x_train,x_test))
(x_train-np.mean(x))/np.std(x)
(x_test-np.mean(x))/np.std(x)

能否请您解释一下这两种方法如何选择,哪一种方法不正确?

首先,您可以使用sklearn 库更轻松地进行归一化。 测试数据模拟了新数据即将用于您的模型的情况。所以你根本不能用他来训练你的模型。 您应该找到训练集的均值和标准差,并永久使用它们来标准化训练和测试。这是你的第一个选项