交叉验证是分类中的特征选择

Cross Validation is Feature Selecting in Classification

我正在观看这个 video 来自著名的 Stat Learning 入门课程,内容是在特征选择中进行交叉验证。

教授们说我们应该在进行任何模型拟合和特征选择之前先形成褶皱。他们还说,在每次拆分中,我们最终可能会得到一组不同的 "best predictors"

我的问题是,如果是这种情况,我们如何确定未来使用的总体最佳预测因子。换句话说,如果我有一组新数据,我怎么知道我应该使用哪些预测变量?

使用同一套功能以备将来使用。是的,有一个 trade-off 所选择的功能可能会随着时间而改变。但通常那些与之前选择的功能一起使用。 但重要的是用于特征选择的初始数据应该足够好,样本数量足够多,这样它几乎可以反映问题的所有情况。 如果是这种情况,通常情况下,所选择的特征对于新的测试数据也不会改变那么多。