使用当前无效的输入数据进行预测
Using currently invalid input data for prediction purposes
假设我们有一些数据(输入),我们想用它来预测一些输出。如果特定输入可以采用的可能值随时间发生了变化,那么使用所有数据是否仍然合适?
让我试着用一个例子来说明。假设其中一个输入是一个分类变量,它在数据中具有唯一值 [A, B, C]
,但我们知道一个事实,即在我们最终进行预测的当前设置中,只有值 [A, B]
是可能的。
是否仍然适合使用所有数据,还是应该排除所有包含 C
的观察结果?
如果 C
不唯一映射到目标变量,而是与 A
or/and B
共享一些目标变量。在这种情况下,将 C
留在数据集中,知道它肯定不会出现在未来的输入中(即你预测看不见的输入的地方),将调整模型的假设(这取决于模型,线性模型更容易出现这种情况),因此最终假设将基于冗余信息。
简单来说:In-Sample不代表Out-of-Sample,所以会过拟合,不会概括一下!
假设我们有一些数据(输入),我们想用它来预测一些输出。如果特定输入可以采用的可能值随时间发生了变化,那么使用所有数据是否仍然合适?
让我试着用一个例子来说明。假设其中一个输入是一个分类变量,它在数据中具有唯一值 [A, B, C]
,但我们知道一个事实,即在我们最终进行预测的当前设置中,只有值 [A, B]
是可能的。
是否仍然适合使用所有数据,还是应该排除所有包含 C
的观察结果?
如果 C
不唯一映射到目标变量,而是与 A
or/and B
共享一些目标变量。在这种情况下,将 C
留在数据集中,知道它肯定不会出现在未来的输入中(即你预测看不见的输入的地方),将调整模型的假设(这取决于模型,线性模型更容易出现这种情况),因此最终假设将基于冗余信息。
简单来说:In-Sample不代表Out-of-Sample,所以会过拟合,不会概括一下!