测试数据集的归一化
Normalisation of test dataset
我有 train(x_train) 和 test(x_test) 数据集,但我不确定如何对其进行归一化。
第一个选项是使用训练数据集的均值和偏差:
(x_train-np.mean(x_train))/np.std(x_train)
(x_test-np.mean(x_train))/np.std(x_train)
第二个选项是结合x_train和x_test得到总体均值和偏差:
x=np.vstack((x_train,x_test))
(x_train-np.mean(x))/np.std(x)
(x_test-np.mean(x))/np.std(x)
能否请您解释一下这两种方法如何选择,哪一种方法不正确?
首先,您可以使用sklearn 库更轻松地进行归一化。
测试数据模拟了新数据即将用于您的模型的情况。所以你根本不能用他来训练你的模型。
您应该找到训练集的均值和标准差,并永久使用它们来标准化训练和测试。这是你的第一个选项
我有 train(x_train) 和 test(x_test) 数据集,但我不确定如何对其进行归一化。
第一个选项是使用训练数据集的均值和偏差:
(x_train-np.mean(x_train))/np.std(x_train)
(x_test-np.mean(x_train))/np.std(x_train)
第二个选项是结合x_train和x_test得到总体均值和偏差:
x=np.vstack((x_train,x_test))
(x_train-np.mean(x))/np.std(x)
(x_test-np.mean(x))/np.std(x)
能否请您解释一下这两种方法如何选择,哪一种方法不正确?
首先,您可以使用sklearn 库更轻松地进行归一化。 测试数据模拟了新数据即将用于您的模型的情况。所以你根本不能用他来训练你的模型。 您应该找到训练集的均值和标准差,并永久使用它们来标准化训练和测试。这是你的第一个选项