是否应该将相同的最小值和最大值应用于 DataFrame 的训练和预测?

Should the same Min and Max be applied for Training and Prediction on a DataFrame?

我正在将 sklearn.preprocessing.MinMaxScaler() 应用于 DataFrame 并将 DataFrame 用于机器学习。训练后,我有一个单独的代码和 DataFrame 来进行预测。在预测代码中,我对要用于预测的 DataFrame 执行 MinMaxScaler() 。 Training DataFrame 和 Prediction DataFrame 将具有不同的 Min 和 Max 值。我的问题是 Training DataFrame 和 Prediction DataFrame 是否应该使用相同的 Min 和 Max 值以获得准确的预测?

是的,你应该在火车和测试中使用相同的 MinMaxScaler()

说明:假设您的训练数据集具有一些最小值=10 和最大值=20 的特征,而您的测试数据集具有最小值=1 和最大值=10 的特征。如果在测试中训练单独的缩放器,则测试数据值将低于训练数据集。