您能否构建一个使用测试集规范化特征同时避免数据泄漏的模型?

Can you build a model that normalises FEATURES using the test set while avoiding data leakage?

我就是想不通这个。

我了解到:

但是,当我们收到新的测试集时,我们 有可用的预测变量。使用这些来规范化有什么问题?是的,预测变量包含 与目标变量相关 的信息,但这实际上是使用模型进行预测的定义,我们使用预测变量中的信息来获得对目标的特定预测。为什么它不能内置到模型定义中,它在预测之前使用输入数据进行标准化?

性能指标,当然,不会有偏差,因为我们只是使用来自预测变量的信息。

是的,测试集应该是 'unseen',但实际上,肯定只有 测试集目标变量 是看不见的,而不是预测变量。

我已经阅读了相关内容,到目前为止的答案是模糊的,只是重复说测试集是看不见的,我们获得了有关测试集的信息。我真的很感激为什么我们不能使用 特别是预测变量 的答案,因为我认为目标案例很明显。

提前致谢!!

离开并思考我的问题 - 也对训练集上的数据进行归一化 - 我意识到这没有多大意义。归一化不是训练的一部分,但是我们在训练之前做的事情,因此使用测试集特征进行归一化是一个很好的想法,但是我们必须去训练这个归一化数据训练集的结果。我最初认为“对更多数据进行归一化”>“对较少数据进行归一化”但实际上我们会在一组(训练+测试)上进行归一化,然后适应另一组(训练)。结果可能得到一个训练更差的模型,所以我认为这是一个愚蠢的想法!