修剪决策树对测试集和训练集准确性的影响

Effects of pruning a decision tree on the accuracy of the test set and training set

我想加深对剪枝如何影响训练集和测试集准确性的理解。

我目前的理解是它会提高测试集的准确性,因为修剪可以防止树过度拟合。这是正确的想法吗?

修剪会如何影响训练集的准确性?我认为它会降低准确性,但为什么呢?

感谢任何帮助,谢谢!

修剪可能会降低训练集的准确性,因为树不会为训练集学习最佳参数以及。但是,如果我们不通过设置适当的参数来克服过度拟合,我们最终可能会构建一个 无法泛化 .

的模型

这意味着该模型学习了一个过于复杂的函数,该函数可以完美地预测训练数据,但无法对未见过的数据进行泛化。当我们的训练集较少时,这会成为一个更大的问题,因为训练集本身可能不足以代表未来可能出现的新样本。

所以你需要注意这些参数来限制最大深度和叶子的数量,以防止模型过于复杂。

您可能还想阅读有关 Bias–variance tradeoff 的内容。