使用当前无效的输入数据进行预测

Using currently invalid input data for prediction purposes

假设我们有一些数据（输入），我们想用它来预测一些输出。如果特定输入可以采用的可能值随时间发生了变化，那么使用所有数据是否仍然合适？

让我试着用一个例子来说明。假设其中一个输入是一个分类变量，它在数据中具有唯一值 [A, B, C]，但我们知道一个事实，即在我们最终进行预测的当前设置中，只有值 [A, B] 是可能的。

是否仍然适合使用所有数据，还是应该排除所有包含 C 的观察结果？

如果 C 不唯一映射到目标变量，而是与 A or/and B 共享一些目标变量。在这种情况下，将 C 留在数据集中，知道它肯定不会出现在未来的输入中（即你预测看不见的输入的地方），将调整模型的假设（这取决于模型，线性模型更容易出现这种情况），因此最终假设将基于冗余信息。

简单来说：In-Sample不代表Out-of-Sample，所以会过拟合，不会概括一下！