交叉验证是否足以确保分类算法中没有过度拟合?

Is Cross Validation enough to ensure that there is no Overfitting in a classification algorithm?

我有一个数据集,其中一个 class 有 45 个观测值,另一个 class 有 55 个观测值。此外,我使用了 4 个不同的特征,这些特征之前是通过使用特征选择过滤器选择的,尽管这个过程的结果有些奇怪..

另一方面,由于我在 Matlab 上使用 classificationLearner,因此我正在使用交叉验证并从不同的 classifier 获得良好的准确度结果(75% 到 85%)。这会确保没有过度拟合吗?或者这可能还有机会?如何保证没有过拟合?

这实际上取决于您可用的训练数据集。如果您可用的数据不够具有代表性,那么无论您使用何种方法进行训练和验证,您都不会得到好的模型。

考虑到这一点,如果您确定您的数据具有代表性("important" 属性的任何子集的值分布与所有数据的全局集相同)那么交叉验证就足够了依靠。