交叉验证如何对这两棵树起作用?

how does cross validation work for these 2 trees?

我在 weka 中有 1 棵树(ID3 或 J48)。它只有 25 个训练集。它学习了 100% 的准确率。我认为这对于训练集的准确性来说太高了。 我如何了解天气是否存在过拟合问题? (我想使用这 25 个火车数据本身的测试集——因为我没有任何测试) 我知道交叉验证有利于停止过度拟合,但我想在使用交叉验证之前证明这一点。 实际上我修剪了这棵树并比较了修剪后和未修剪的树之间的交叉验证准确性。但我无法解释和理解过度拟合树和修剪树之间的准确性应该如何变化? (在这种情况下,我知道我的树有过度拟合的问题——但我怎么能推断出来呢?) 其他方式呢?你能建议我吗? 请注意,测试数据不可用。

这就是我要做的:

  1. 取 ​​25 个数据点并使用 10 折交叉验证。记录准确率(前提是你的类是balanced/near-balanced)
  2. 获取训练精度并比较这两个精度值。如果它们有显着差异(比如 100% 的训练准确率与 85% 的测试准确率),那么这对我来说就是过度拟合的信号。从那时起,我会尝试增加数据点并在增加时绘制学习曲线。

注意:如果您没有任何测试数据,那么 CV 是唯一的选择,您从 CV 获得的结果应被视为测试结果。