分裂前与分类器无关的特征选择?

Classifier-independent feature selection before spliting?

我需要在我的数据集中使用信息增益特征选择方法。但是,有人告诉我,在拆分数据之前使用它会导致数据泄漏和有偏差的结果。

我读了很多这方面的资料,但我还是不明白(我猜)。我看过的文章只是泛泛而谈,例子都是用wrapper/embedded的方法,找不到一个用我需要的方法的例子。

那么问题来了,由于信息增益是classifier-independent,在拆分前的完整数据集中使用它仍然会导致信息泄露?

理论上很简单。您必须在不了解测试集的情况下构建分类器。假装它不存在。在 select 分类器及其所有(超)参数之前,您甚至不允许以人类的身份偷看它。实际上,它有多糟糕取决于你使用了多少信息。

但是,如果您使用的特征是通过对测试集使用统计数据 select 编辑的,那么您的分类器(平均而言)在测试集上的表现会比您未使用此信息时稍微好一些。

因此您的测试集不再适合无偏差地衡量性能。与测试集相比,您应该期望您的分类器在真实数据上的表现稍差。虽然它会比你没有“作弊”时做得更好,因为它已经使用更多数据进行了训练。